Java8：HashMap源码分析(实现原理)

HashMap是Java开发中常用的数据结构，了解它的内部实现有助于更好的使用它，Java8中的HashMap由三种数据结构组成：数组、链表、红黑树

内部存储

HashMap的内部存储是一个数组（bucket），数组的元素Node实现了是Map.Entry接口(hash, key, value, next)，next非空时指向定位相同的另一个Entry，如图:

内部主要特点：

使用哈希表进行数据存储，使用链地址法解决哈希碰撞
当链表的长度大于等于8时，讲链表转成红黑树存储
每次进行二次幂的扩容，即扩容为原容量的两倍

存储机制

hash(Object key)方法

HashMap便是通过Object类中的hashCode()方法，来确定key在数组下标位置的，Java 8 之前的做法和现在的有所不同，Java 8 对此进行了改进，优化了该算法

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

可以注意到，HashMap并不是直接通过hashCode()方法来当作散列值的，而是通过hash方法来做无符号右移和异或处理后的结果当作散列值，这样做的好处是避免了哈希碰撞。

Java8：HashMap源码分析(实现原理)

上图的计算方式可以看出，key的哈希值高16位不变，低16位与高16位进行异或（相同位数的数值进行比较，相等则取0，不等则取1）运算，然后通过

(n - 1) & hash

来得到数组中元素的下标位置。

Java8：HashMap源码分析(实现原理)

很显然，这种计算方式决定了元素的位置只关系到低位的数值，这样会使得哈希碰撞出现的可能性增加，因此我们利用 hash 值高位与低位的异或处理来降低冲突的可能性，使得元素的位置不单单取决于低位

put(K key, V value)

put方法是HashMap中十分重要的方法，关系到HashMap的存储问题。

public V put(K key, V value) {
        return putVal(hash(key), key, value, false, true);
    }

put方法调用了putVal方法，解释如下：

//这里onlyIfAbsent表示只有在该key对应原来的value为null的时候才插入，也就是说如果value之前存在了，就不会被新put的元素覆盖。
//evict参数用于LinkedHashMap中的尾部操作，这里没有实际意
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
    //定义变量tab是将要操作的Node数组引用，p表示tab上的某Node节点，n为tab的长度，i为tab的下标。
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    //判断当table为null或者tab的长度为0时，即table尚未初始化，此时通过resize()方法得到初始化的table。
    if ((tab = table) == null || (n = tab.length) == 0)
    //判断hash表是否为空，若为空，初始化哈希表
        n = (tab = resize()).length;
    //此处通过（n - 1） & hash 计算出的值作为tab的下标i，并另p表示tab[i]，也就是该链表第一个节点的位置。并判断p是否为null。
    if ((p = tab[i = (n - 1) & hash]) == null)
 	//当p为null时，表明tab[i]上没有任何元素，那么接下来就new第一个Node节点，调用newNode方法返回新节点赋值给tab[i]。
        tab[i] = newNode(hash, key, value, null); 
    else {
   	//下面进入p不为null的情况，有三种情况：p为链表节点；p为红黑树节点；p是链表节点但长度为临界长度TREEIFY_THRESHOLD，再插入任何元素就要变成红黑树了。
        Node<K,V> e; K k;
	//HashMap中判断key相同的条件是key的hash相同，并且符合equals方法。这里判断了p.key是否和插入的key相等，如果相等，则将p的引用赋给e。
	//这一步的判断其实是属于一种特殊情况，即HashMap中已经存在了key，于是插入操作就不需要了，只要把原来的value覆盖就可以了。
        if (p.hash == hash &&
            ((k = p.key) == key || (key != null && key.equals(k))))
    //这里为什么要把p赋值给e，而不是直接覆盖原值呢？答案很简单，现在我们只判断了第一个节点，后面还可能出现key相同，所以需要在最后一并处理。
            e = p;
    //现在开始了第一种情况，p是红黑树节点，那么肯定插入后仍然是红黑树节点，所以我们直接强制转型p后调用TreeNode.putTreeVal方法，返回的引用赋给e。
        else if (p instanceof TreeNode)
    //你可能好奇，这里怎么不遍历tree看看有没有key相同的节点呢？其实，putTreeVal内部进行了遍历，存在相同hash时返回被覆盖的TreeNode，否则返回null。
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
    //接下里就是p为链表节点的情形，也就是上述说的另外两类情况：插入后还是链表/插入后转红黑树。另外，上行转型代码也说明了TreeNode是Node的一个子类。
        else {
    //我们需要一个计数器来计算当前链表的元素个数，并遍历链表，binCount就是这个计数器。
            for (int binCount = 0; ; ++binCount) {
    //遍历过程中当发现p.next为null时，说明链表到头了，直接在p的后面插入新的链表节点，即把新节点的引用赋给p.next，插入操作就完成了。注意此时e赋给p。
                if ((e = p.next) == null) {
    //最后一个参数为新节点的next，这里传入null，保证了新节点继续为该链表的末端。
                    p.next = newNode(hash, key, value, null);
    //插入成功后，要判断是否需要转换为红黑树，因为插入后链表长度加1，而binCount并不包含新节点，所以判断时要将临界阈值减1。
                    if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
    //当新长度满足转换条件时，调用treeifyBin方法，将该链表转换为红黑树。
                        treeifyBin(tab, hash);
    //当然如果不满足转换条件，那么插入数据后结构也无需变动，所有插入操作也到此结束了，break退出即可。
                    break;
                }
    //在遍历链表的过程中，我之前提到了，有可能遍历到与插入的key相同的节点，此时只要将这个节点引用赋值给e，最后通过e去把新的value覆盖掉就可以了。
    //老样子判断当前遍历的节点的key是否相同。
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
    //找到了相同key的节点，那么插入操作也不需要了，直接break退出循环进行最后的value覆盖操作。
                    break;
    //在第21行我提到过，e是当前遍历的节点p的下一个节点，p = e 就是依次遍历链表的核心语句。每次循环时p都是下一个node节点。
                p = e;
            }
        }
    //左边注释为jdk自带注释，说的很明白了，针对已经存在key的情况做处理。
        if (e != null) { // existing mapping for key
    //定义oldValue，即原存在的节点e的value值。
            V oldValue = e.value;
    //前面提到，onlyIfAbsent表示存在key相同时不做覆盖处理，这里作为判断条件，可以看出当onlyIfAbsent为false或者oldValue为null时，进行覆盖操作。
            if (!onlyIfAbsent || oldValue == null)
    //覆盖操作，将原节点e上的value设置为插入的新value。
                e.value = value;
    //这个函数在hashmap中没有任何操作，是个空函数，他存在主要是为了linkedHashMap的一些后续处理工作。
            afterNodeAccess(e);
    //这里很有意思，他返回的是被覆盖的oldValue。我们在使用put方法时很少用他的返回值，甚至忘了它的存在，这里我们知道，他返回的是被覆盖的oldValue。
            return oldValue;
        }
    }
    //收尾工作，值得一提的是，对key相同而覆盖oldValue的情况，在前面已经return，不会执行这里，所以那一类情况不算数据结构变化，并不改变modCount值。
    ++modCount;
    //同理，覆盖oldValue时显然没有新元素添加，除此之外都新增了一个元素，这里++size并与threshold判断是否达到了扩容标准。
    if (++size > threshold)
    //当HashMap中存在的node节点大于threshold时，hashmap进行扩容。
        resize();
    //这里与前面的afterNodeAccess同理，是用于linkedHashMap的尾部操作，HashMap中并无实际意义。1
    afterNodeInsertion(evict);
    //最终，对于真正进行插入元素的情况，put函数一律返回null。
    return null;
}

扩容机制

resize()方法

此方法在第一次put时调用进行初始化并分配内存空间，第一次put时调用进行初始化并分配内存空间

/**
  * 1.初始化：根据构造函数传递过来的参数和默认参数初始化table，第一次put时调用进行初始化并分配内存空间
  * 由于超出threshold,对原数据进行两倍扩容
  */
final Node<K,V>[] resize() {
   Node<K,V>[] oldTab = table;
   //获取数组长度作为旧的容器
   int oldCap = (oldTab == null) ? 0 : oldTab.length;
   int oldThr = threshold;
   int newCap, newThr = 0;

//-------------------------------已经初始化-------------------------------
   if (oldCap > 0) {
   //如果旧容量到达最大容量限制，则不进行扩容，而是修改threshold的值为最大整数值。
       if (oldCap >= MAXIMUM_CAPACITY) {
       
           threshold = Integer.MAX_VALUE;
           return oldTab;
       }
       //如果没有超过容量限制，则讲容量扩大2倍，扩大后在进行最大最小容量判断
       else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                oldCap >= DEFAULT_INITIAL_CAPACITY)
                //同时将threshold也进行两倍扩大
           newThr = oldThr << 1; // double threshold
   }

//-------------------------------旧数组长度为0，初始化操作-------------------------------
	//判断构造函数中指定的容量
   else if (oldThr > 0) // initial capacity was placed in threshold
   //将构造函数中指定的长度initialCapacity赋值给新的容量
       newCap = oldThr;
   //为0则表示调用HashMap无参构造方法，则使用默认参数
   else {               // zero initial threshold signifies using defaults
       newCap = DEFAULT_INITIAL_CAPACITY;
       newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
   }
   //设置新的阈值
   if (newThr == 0) {
       float ft = (float)newCap * loadFactor;
       newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                 (int)ft : Integer.MAX_VALUE);
   }
//-------------------------------新阈值和容量计算完毕-----------------------------
   //更新阈值
   threshold = newThr;
//-------------------------------根据新计算的容量进行扩容-----------------------------
   //创建新容量的数组
   @SuppressWarnings({"rawtypes","unchecked"})
   Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
   table = newTab;
   //1.如果旧数组为null，则说明这是在初始化table
   // table为上面代码创建的，里面没有元素则不需要复制转移
   //2.如果旧数组不为null，则需要进行元素节点赋值转移
   if (oldTab != null) {
   //遍历每个桶节点
       for (int j = 0; j < oldCap; ++j) {
           Node<K,V> e;
           //桶节点不为null
           if ((e = oldTab[j]) != null) {
           //则赋值给null，帮助垃圾回收
               oldTab[j] = null;
               //若桶节点只有一个元素，则直接赋值到新数组中
               if (e.next == null)
               //将e的哈希值和新数组的长度进行取模计算新的数组索引
                   newTab[e.hash & (newCap - 1)] = e;
               //判断桶节点是否为树节点
               else if (e instanceof TreeNode)
                   ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
               //桶节点为链表节点
               else { // preserve order
                   Node<K,V> loHead = null, loTail = null;
                   Node<K,V> hiHead = null, hiTail = null;
                   Node<K,V> next;
                   //遍历桶节点的单项链表
                   do {
                       next = e.next;
                       //判断hash和oldCap的最高位上的1对应的位上是0还是1
                       //是0，则重新hash后再新数组的索引位置保持不变
                       if ((e.hash & oldCap) == 0) {
                           if (loTail == null)
                               loHead = e;
                           else
                               loTail.next = e;
                           loTail = e;
                       }
                       //是1，则重新计算后再新数组的位置上为 原索引+oldCap
                       else {
                           if (hiTail == null)
                               hiHead = e;
                           else
                               hiTail.next = e;
                           hiTail = e;
                       }
                   } while ((e = next) != null);
                   //将上面判断对应位为1的单向链表的head节点
                   //插入到新数组的原索引位置上
                   if (loTail != null) {
                       loTail.next = null;
                       newTab[j] = loHead;
                   }
                   //将上面判断对应位为1的单向链表的head节点
                   //插入到新数组(原索引+oldCap)位置上
                   if (hiTail != null) {
                       hiTail.next = null;
                       newTab[j + oldCap] = hiHead;
                   }
               }
           }
       }
   }
   return newTab;
}

Java8：HashMap源码分析(实现原理)

内部存储

存储机制

扩容机制

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method