HashMap源碼分析及面試常見知識點分享

今日閑來無事，撸了一把jdk 1.8HashMap源碼的源碼，随手記錄一番，便于後期複習也可以更好的消化吸收，如果有了解不周，不吝賜教。如果對集合上不太了解的同學可以先參考助力掌握常用Java集合了解一波，希望你有所收獲。本文從HashMap的一些重要參數說起。

HashMap重要參數

/**
     * The default initial capacity - MUST be a power of two.
	 * 預設的初始化容量，必須是2的整數倍，預設16，也就是預設會建立 16 *個箱子，箱子的個數不能太多或太少。如果太少，很容易觸發擴容，如果太多，周遊哈希表會比較慢。
     */
      static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

    /**
     *最大容量為2的30次方，一般情況下隻要記憶體夠用，哈希表不會出現問題。
     */
      static final int MAXIMUM_CAPACITY = 1 << 30;

    /**
     *預設的負載因子。是以初始情況下，當鍵值對的數量大于 16 * 0.75 = 12 時，就會觸發擴容
     */
      static final float DEFAULT_LOAD_FACTOR = 0.75f;

    /**
     *上文說過，如果哈希函數不合理，即使擴容也無法減少箱子中連結清單的長度，是以 Java *的處理方案是當連結清單太長時，轉換成紅黑樹。這個值表示當某個箱子中，連結清單長度大于 8 *時，有可能會轉化成樹。
     */
      static final int TREEIFY_THRESHOLD = 8;

    /**
     * 在哈希表擴容時，如果發現連結清單長度小于 6，則會由樹重新退化為連結清單。
     */
      static final int UNTREEIFY_THRESHOLD = 6;

    /**
     * 在轉變成樹之前，還會有一次判斷，隻有鍵值對數量大于 64 *才會發生轉換。這是為了避免在哈希表建立初期，多個鍵值對恰好被放入了同一個連結清單中而導緻不必要的*轉化。
     */
      static final int MIN_TREEIFY_CAPACITY = 64;

這裡面有些參數比如說為要設定為2的整數倍，為什麼負載因子達到8的時候要轉為紅黑樹等等，勿急，會在下文介紹。

這裡面有兩個參數影響HashMap性能：初始容量和加載因子。預設初始容量是16，加載因子是0.75。容量是哈希表中桶(Entry數組)的數量，初始容量隻是哈希表在建立時的容量。加載因子是哈希表在其容量自動增加之前可以達到多滿的一種尺度。當哈希表中的條目數超出了加載因子與目前容量的乘積時，通過調用 rehash 方法将容量翻倍。

HashMap構造方法

HashMap源碼分析及面試常見知識點分享

HashMap的構造方法有以上四種一、二、四都比較簡單，點進去看一下就明白了，重要點來分析一下第三種構造方法。畢竟，上面也寫道初始容量和加載因子兩個參數會影響HashMap性能，細談究竟怎樣影響的。

/**
  * Constructs an empty <tt>HashMap</tt> with the specified initial
  * capacity and load factor.
  * 根據初始化容量和加載因子構造一個空的HashMap
  * @param  initialCapacity the initial capacity
  * @param  loadFactor      the load factor   
  * @throws IllegalArgumentException if the initial capacity is negative
  *         or the load factor is nonpositive
  */
    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        //如果入參初始化容量大于設定的最大值，就将其設定為最大值。
		if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
			
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }

主要為初始化容量和負載因子進行初始化，仔細閱讀發現這段并不難，但是我們到結尾處發現為初始化容量指派的是tableSizeFor()的傳回值，那它又對我們傳入參數initialCapacity做了什麼操作呢？？？

細究tableSizeFor()

//初始化臨界值的具體實作
    static final int tableSizeFor(int cap) {
    int n = cap - 1;
     n |= n >>> 1;//現将n無符号右移1位，并将結果與右移前的n做按位或操作，結果賦給n；
     n |= n >>> 2;
     n |= n >>> 4;
     n |= n >>> 8;
     n |= n >>> 16;
     //中間過程的目的就是使n的二進制數的低位全部變為1，比如10，11變為11，100，101，110，111變為 
     111;
     return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
     }

看到這裡，想大家都明白了吧，這個方法在結果上的展現就是，檢查所傳的參數是否為2的幂次方，且不能為負數（負數變為1），且不能超過常量MAXIMUM_CAPACITY（超過變為MAXIMUM_CAPACITY），如果不為2的幂次方，将其變為，比cap大的最小的2的幂。為什麼變為2的次幂而不是直接設定為我們傳入的值呢?同樣，勿急(?)，會在下文有詳細說明。

這邊我們來分析下上述代碼的詳細過程

先來分析有關n位操作部分：先來假設n的二進制為01xxx...xxx。接着

對n右移1位：001xx...xxx，再位或：011xx...xxx

對n右移2為：00011...xxx，再位或：01111...xxx

此時前面已經有四個1了，再右移4位且位或可得8個1

同理，有8個1，右移8位肯定會讓後八位也為1。

綜上可得，該算法讓最高位的1後面的位全變為1。

最後再讓結果n+1，即得到了2的整數次幂的值了。

現在回來看看第一條語句：

int n = cap - 1;

　　讓cap-1再指派給n的目的是另找到的目标值大于或等于原值。例如二進制1000，十進制數值為8。如果不對它減1而直接操作，将得到答案10000，即16。顯然不是結果。減1後二進制為111，再進行操作則會得到原來的數值1000，即8。

這種方法的效率非常高，可見Java8對容器優化了很多，很強。

上面是初始化過程，接下來我們進行重頭戲，上面遺留的問題也會在這裡有彩蛋，仔細閱讀，結合代碼效果更佳。

HashMap的put過程

廢話不多說，直接上代碼，有詳細注解，仔細尋找彩蛋吆，也有面試官喜歡問的一些問題也有展現，為了節約大家的時間，偷偷提示下注釋拓展下面都是面試官喜歡問的奧。

HashMap的put過程
    **
     * Associates the specified value with the specified key in this map.
     * If the map previously contained a mapping for the key, the old
     * value is replaced.
     *将key和value聯系起來，如果map包含一個映射關于這個key，舊的值将會被替換
	 *
     * @param key key with which the specified value is to be associated
	              key聯系了一個确定的值
     * @param value value to be associated with the specified key
	                值被聯系到一個确定的key
     * @return the previous value associated with <tt>key</tt>, or
     *         <tt>null</tt> if there was no mapping for <tt>key</tt>.
     *         (A <tt>null</tt> return can also indicate that the map
     *         previously associated <tt>null</tt> with <tt>key</tt>.)
	 *   傳回先前key關聯的值，如果key之前沒有映射傳回一個null值
	 *
	 *
     */
	 public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
      }
    /**
     * Implements Map.put and related methods.
     *
     * @param hash hash for key
	 *             key的hash值
     * @param key the key
	 *             key
     * @param value the value to put
	 *              被put的值
     * @param onlyIfAbsent if true, don't change existing value
	 *        如果為真，不改變存在的值
     * @param evict if false, the table is in creation mode.
	 *        如果為false，表處于建立過程中
     * @return previous value, or null if none
	 *        傳回以前的值，如果沒有傳回null
     */
	  final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab;//hash表 
		Node<K,V> p; //解決hash沖突連結清單
		int n, i;
		//如果表為null或者表的長度為0，進行resize()擴容，并将其長度賦給n
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
		/*hash值和hash表長度減一進行&運算
		 *拓展：
   		 *為什麼要和tab-1進行&運算
		 *1>效率問題
		 *在底層的執行效率而言來說：加減法>乘除法>%運算  由此可見%運算效率極低，是以采用&運算
		 *2>
		 *數組越界問題
		 *hash值和n-1進行&運算，它的取值範圍隻會在0~n-1之間
		 *舉例：
		 *hash： 5634276829768796
		 *tab初始化長度為16 則：n-1為15   
		 *n-1二進制:0000 0000 0000 1111
		 *        10011100010111110111011010111111101111011000110 0011 0101 0100 1100
		 * &運算                           前面均為0              0000 0000 0000 1111
		 * 結果：               隻與後四位有關：要麼為全0要麼為全1，保證了資料越問題
		 **/
        if ((p = tab[i = (n - 1) & hash]) == null)
		//如果tab[i]為空，說明沒有hash沖突，直接插入即可
            tab[i] = newNode(hash, key, value, null);
        else {
		//有hash沖突
            Node<K,V> e; K k;
			/**
			  *1）進行目前hash值和傳入的hash值是否相等并且判斷他們的key值是否相等
              *2）判斷傳入key值是否為空并且判斷目前key和傳入key是否相等
			  *兩條件若滿足其一說明，目前節點key和傳入的key值發生hash沖突
			  *将這個目前節點指派給變量Node<K,V> p;
			  *
			if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
				/**
				  *擴充：
				  *由于jdk1.8引入紅黑樹的資料結構
				  *why:
				  *解決連結清單的缺點：
				  *如果連結清單長度過長，查找元素效率低，引入紅黑樹提高查找效率
				  *
				  *判斷目前節點是否是樹節點，插入紅黑樹
				  **/
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
			    //說明是連結清單，for循環找到最後一個節點，進行插入
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
						/**
						  *如果連結清單長度超過設定的門檻值，将連結清單轉為紅黑樹，預設為8
						  *擴充：
						  *為什麼設定為8呢？
						  *這裡面涉及到一個機率問題，設計人員根據大量的測試發現插入的元素進入
						  *同一個桶的機率符合泊松分布(自行百度了解，不做概述)，當連結清單長度達到
						  *8的時候幾乎不會再有元素進入桶中，除非資料量特别大的情況下。
						  *是以說，在資料量不是特别大的情況下，引入紅黑樹進行優化連結清單的一些缺點，
						  *并沒有提升很大的效率。
						  **/
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
						    //轉化為紅黑樹
                            treeifyBin(tab, hash);
                        break;
                    }
					//判斷目前插入的值是否存在，如果存在跳出目前循環
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
			//當節點不為空的時候說明有key有映射(對應值)
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
				//當值為空時直接插入
                if (!onlyIfAbsent || oldValue == null)
                 e.value = value;
				//這個方法是為子類LinkedHashMap服務的,保證元素的插入順序
                afterNodeAccess(e);
                return oldValue;
            }
        }
		//modCount記錄被修改的次數
        ++modCount;
		/**
          *拓展
		  *如果數組長度大于數組擴容的門檻值(預設為加載因子*預設數組長度)，進行擴容
		  *加載因子loadFactor：預設為0.75
		  *加載因子為什麼設為0.75？
		  *假如說加載因子設為0.5，空間使用率低，會減少hash沖突，提高查詢效率，節省查找時間
		  *假如說加載因子設為1，空間使用率會提高，但相應hash沖突會增加，增加時間複雜度
		  *是以說出于時間和空間的綜合考慮最終定為0.75
		  */
        if (++size > threshold)
            resize();
		//這個方法是為子類LinkedHashMap服務的，用來回調移除最早放入Map的對象
        afterNodeInsertion(evict);
        return null;
    }

好了HashMap的put方法我們就看到這裡，裡面都有詳細注解，可能閑餘時間會對重要問題進行總結，後補。

接下來我們看看HashMap的一個擴容問題，在jdk1.7中我們都知道在并發情況下，HashMap會出現循環連結清單問題，是線程不安全的，jdk1.8對其進行了優化，是如何優化的呢?仔細閱讀下文源碼，關于jdk1.7的循環連結清單問題，自行百度，這裡不做稱述，後期如有空閑再來分享。

再來看看在put過程中它是如何計算hash值的

HashMap中hash(Object key)的原理

 static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

相信基本都能看懂，是不是很簡單，但是估計知道這一步(h = key.hashCode()) ^ (h >>> 16)原因的人很少。

首先這個方法的傳回值還是一個哈希值。為什麼不直接傳回key.hashCode()呢？還要與 (h >>> 16)異或。

講到這裡還要看一個方法indexFor，在jdk1.7中有indexFor(int h, int length)方法。jdk1.8裡沒有，但原理沒變。下面看下1.7源碼

1.8中用tab[(n - 1) & hash]代替但原理一樣。

static int indexFor(int h, int length) {

return h & (length-1);

}

這個方法傳回值就是數組下标。我們平時用map大多數情況下map裡面的資料不是很多。這裡與（length-1）相&,

但由于絕大多數情況下length一般都小于2^16即小于65536。是以return h & (length-1);結果始終是h的低16位與（length-1）進行&運算。如下例子（hashcode為四位元組）

例如1.

length = 8; （length-1） = 7；轉換二進制為111；

hashcode = 78897121 轉換二進制：100101100111101111111100001

0000 0100 1011 0011 1101 1111 1110 0001

&運算

0000 0000 0000 0000 0000 0000 0000 0111

= 0000 0000 0000 0000 0000 0000 0000 0001 （就是十進制1，是以下标為1）

由于和（length-1）運算，length 絕大多數情況小于2的16次方。是以始終是hashcode 的低16位參與運算。要是高16位也參與運算，會讓得到的下标更加散列。

是以這樣高16位是用不到的，如何讓高16也參與運算呢。是以才有hash(Object key)方法。讓他的hashCode()和自己的高16位^運算。是以(h >>> 16)得到他的高16位與hashCode()進行^運算。

重點來了，為什麼用^：因為&和|都會使得結果偏向0或者1 ,并不是均勻的概念,是以用^。

這就是為什麼有hash(Object key)的原因。

HashMap的resize()方法

resize()擴容
	/**
     * Initializes or doubles table size.  If null, allocates in
     * accord with initial capacity target held in field threshold.
     * Otherwise, because we are using power-of-two expansion, the
     * elements from each bin must either stay at same index, or move
     * with a power of two offset in the new table.
     *
	 *初始化或者将表加倍也就是擴充為原來的兩倍。
	 *如果表是空的，通過初始化容量來設定一個符合門檻值的初始化表
	 *否則，就進行二倍擴充
	 *
     * @return the table
     */
    final Node<K,V>[] resize() {
	    //将目前表指派給oldTab
        Node<K,V>[] oldTab = table;
		//oldCap：擴充前表的容量
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
		//oldThr：擴充前表的加載因子
        int oldThr = threshold;
        int newCap, newThr = 0;
        if (oldCap > 0) {
            if (oldCap >= MAXIMUM_CAPACITY) {//擴容前的數組大小如果已經達到最大(2^30)了
               threshold = Integer.MAX_VALUE;//修改門檻值為int的最大值(2^31-1)，這樣以後就不會擴容了
               return oldTab;
            }
			/**
			  *沒超過最大值，就擴充為原來的2倍
			  *MAXIMUM_CAPACITY：最大容量
			  *DEFAULT_INITIAL_CAPACITY:預設初始化容量
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
				擴充為原來的2倍
                newThr = oldThr << 1; // double threshold
		//說明原來的容量為0
        else if (oldThr > 0) 
            newCap = oldThr;// 初始容量設定為門檻值
        else {              
            newCap = DEFAULT_INITIAL_CAPACITY; // 初始門檻值為零表示使用預設值
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
		//計算新的resize上限
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
        Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        table = newTab;
		 //把每個bucket都移動到新的buckets中
        if (oldTab != null) {
		   for (int j = 0; j < oldCap; ++j) {
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    if (e.next == null)//節點下一個元素為空，直接放入新數組
                        newTab[e.hash & (newCap - 1)] = e;
                    else if (e instanceof TreeNode)//類型為Tree,插入紅黑樹
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { //進傳入連結表，此處優化了在并發情況下jdk1.7出現的循環連結清單問題
                        Node<K,V> loHead = null, loTail = null;
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
						   // 儲存下一個節點
                            next = e.next;
							// 原索引
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
							// 原索引+oldCap
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
						//原索引放到bucket裡
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
						// 原索引+oldCap放到bucket裡
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

最後我們再來看看get過程，get元素的過程相對來說是比較簡單的。

public V get(Object key) {
        Node<K,V> e;
        return (e = getNode(hash(key), key)) == null ? null : e.value;
    }
	final Node<K,V> getNode(int hash, Object key) {
        Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
		//目前下表是否有空
        if ((tab = table) != null && (n = tab.length) > 0 &&
            (first = tab[(n - 1) & hash]) != null) {
			//目前key是否是要查找的key
            if (first.hash == hash && // always check first node
                ((k = first.key) == key || (key != null && key.equals(k))))
                return first;
				//如果不是找下一個
            if ((e = first.next) != null) {
			     //是否是樹節點
                if (first instanceof TreeNode)
                    return ((TreeNode<K,V>)first).getTreeNode(hash, key);
                do {
				    //連結清單 往下循環依次查找
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        return e;
                } while ((e = e.next) != null);
            }
        }
		//沒有找到
        return null;
    }

沒有多複雜，仔細看看就明白了。

HashMap源碼分析及面試常見知識點分享

HashMap重要參數

HashMap構造方法

細究tableSizeFor()

HashMap的put過程

HashMap中hash(Object key)的原理

HashMap的resize()方法

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method