转载

Java集合_HashMap篇

1.HashMap结构

HashMap是存键值对(key-value)映射的数据结构，由数组+链表组成的，数组是HashMap的主体，链表则是主要为了解决哈希冲突而存在的，如果定位到的数组位置不含链表（当前entry的next指向null）,那么对于查找，添加等操作很快，仅需一次寻址即可；如果定位到的数组包含链表，对于添加操作，其时间复杂度为O(n)，首先遍历链表，存在即覆盖，否则新增；对于查找操作来讲，仍需遍历链表，然后通过key对象的equals方法逐一比对查找。通过下图可以对HashMap有一个直观的认识。

Java集合_HashMap篇

2.put和get操作过程

put操作（JDK1.8版）

1）计算key的hash值（计算过程下面会详细介绍）。

2）如果数组table是否为null或长度是否等于0，条件为true时进行数据table扩容（实际执行resize方法）。

3）根据hash值计算Value将要存放的位置，即计算数组table索引（计算过程下面会详细讲）。

4）判断table[i]是否是null，如果是null直接进行Value插入。

5）如果table[i]不是null，接着判断key是否重复，如果重复直接进行覆盖插入。

6）如果key不重复，判断table[i]是否是TreeNode类型，如果是红黑树，直接插入。

7）如果不是TreeNode就遍历链表，遍历时预判断插入新的Value后，链表长度是否大于等于8。条件为True时执行链表转红黑树，然后插入Value。

8）如果上面链表长度小于8执行链表插入。

9）最后检查数组是否需要扩容。

详细代码：

public V put(K key, V value) {
     //调用putVal方法
     return putVal(hash(key), key, value, false, true);
 }

    final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) {
        Node<K,V>[] tab;  //缓存底层数组用,都是指向一个地址的引用
        Node<K,V> p;      //插入数组的桶i处的键值对节点
        int n;            //底层数组的长度
        int i;            //插入数组的桶的下标
        //刚开始table是null或空的时候，初始化个默认的table；为tab和n赋值，tab指向底层数组，n为底层数组的长度
        if ((tab = table) == null || (n = tab.length) == 0){
            n = (tab = resize()).length;
        }
        //(n - 1) & hash：根据hash值算出插入点在底层数组的桶的位置，即下标值；为p赋值，也为i赋值（不管碰撞与否，都已经赋值了）
        //如果在数组上，没有发生碰撞，即当前要插入的位置上之前没有插入过值，则直接在此位置插入要插入的键值对
        if ((p = tab[i = (n - 1) & hash]) == null){
            tab[i] = newNode(hash, key, value, null);//插入的节点的next属性是null
        } else {    //发生碰撞，即当前位置已经插入了值
            Node<K,V> e;    //中间变量吧，跟冒泡排序里面的那个中间变量似的，起到个值交换的作用
            K k;            //同上
            //hash值相同，key也相同，那么就是更新这个键值对的值。同 jdk 1.7
            if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))){ //注意在这个if内【e != null】
                e = p;//这地方，e = p  他们两个都是指向数组下标为i的地方，在这if else if else结束之后，再把节点的值value给更新了
            } else if (p instanceof TreeNode){  //这个树方法可能会返回null。
                //jdk 1.8引入了红黑树来处理碰撞，上面判断p的类型已经是树结构了，
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);//如果是，则走添加树的方法。
            } else {    //注意在这个else内，当为添加新节点时，【e == 】；更新某个节点时，就不是null
                for (int binCount = 0; ; ++binCount) {//还未形成树结构，还是jdk 1.7的链表结构
                    //差别就是1.7:是头插法，后来的留在数组上，先来的链在尾上；1.8:是先来的就留在数组上，后来的链在尾上
                    //判断p.next是否为空，同时为e赋值，若为空，则p.next指向新添加的节点，这是在链表长度小于7的时候
                    if ((e = p.next) == null) {
                        //这个地方有个不好理解的地方：在判断条件里面，把e指向p.next，也就是说现在e=null而不是下下一行错误的理解。
                        //这也就解释了更新的时候，返回oldValue，新建的时候，是不在那地方返回的。
                        p.next = newNode(hash, key, value, null);//e = p.next,p.next指向新生成的节点，也就是说e指向新节点（错误）
                        //对于临界值的分析：
                        //假设此次是第六次，binCount == 6,不会进行树变，当前链表长度是7；下次循环。
                        //binCount == 7，条件成立，进行树变，以后再put到这个桶的位置的时候，这个else就不走了，走中间的那个数结构的分叉语句啦
                        //这个时候，长度为8的链表就变成了红黑树啦
                        if (binCount >= TREEIFY_THRESHOLD - 1){// -1 for 1st //TREEIFY_THRESHOLD == 8
                            treeifyBin(tab, hash);
                        }
                        break;//插入新值或进行树变后，跳出for循环。此时e未重定向，还是指向null，虽然后面p.next指向了新节点。
                        //但是，跟e没关系。
                    }
                    //如果在循环链表的时候，找到key相同的节点，那么就跳出循环，就走不到链表的尾上了。
                    // e已经在上一步已经赋值了，且不为null,也会跳出for循环，会在下面更新value的值
                    if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))){
                        break;
                    }
                    //这个就是p.next也就是e不为空，然后，还没有key相同的情况出现，那就继续循环链表，
                    // p指向p.next也就是e，继续循环，继续，e=p.next
                    p = e;
                    //直到p.next为空，添加新的节点；或者出现key相等，更新旧值的情况才跳出循环。
                }
            }
            //经过上面if else if else之后，e在新建节点的时候，为null；更新的时候，则被赋值。在树里面处理putTreeVal（）同样如此，
            if (e != null) { // existing mapping for key//老外说的对，就是只有更新的时候，才走这，才会直接return oldValue
                V oldValue = e.value;
                //onlyIfAbsent 这个在调用hashMap的put()的时候，一直是false，那么下面更新value是肯定执行的
                if (!onlyIfAbsent || oldValue == null){
                    e.value = value;
                }
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold){
            resize();
        }
        afterNodeInsertion(evict);
        return null;

3.寻址过程（怎么由key值转换成数组下标）

借用网上的图，比较直观的看下这个转换过程：

Java集合_HashMap篇

第一步：key值--->32位的哈希值

这个就是key值调用hashCode()函数，生成一个32位的哈希值。

第二步：32位哈希值--->混合哈希值

这一步将32位哈希值的高16位与低16位做异或操作。为什么要这样做呢，因为下面还要进行一次indexFoe()操作截取低位信息（高16位信息将会丢失），这样做之后，低16位也能掺杂高16位的信息，高位的信息变相被保存下来了，可以增加随机性，减小冲突的可能性。

1,2两步的操作在put函数源码中合并成了一行代码，如下：

return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);

第三步：混合哈希值--->数组下标

链表数组的初始长度是16。显然这个32位的混合哈希值不能直接和链表数组直接对应起来，会照成大量冲突。这里采用了一次取模运算。HashMap 通过 hash 值与 length-1 (容器长度-1)进行取模（%）运算。可能有人会问：明明源码中 indexFor() 方法进行的按位与（&）运算，而非取模运算。实际上，HashMap 中的 indexFor() 方法就是在进行取模运算。利用位运算代替取模运算，可以大大提高程序的计算效率。位运算可以直接对内存数据进行操作，不需要转换成十进制，因此效率要高得多。需要注意的是，只有在特定情况下，位运算才可以转换成取模运算（当 b = 2^n 时，a % b = a & (b - 1) ）。也是因此，HashMap 才将初始长度设置为 16，且扩容只能是以 2 的倍数（2^n）扩容。

4.HashMap的安全性

在扩容操作时可能形成环形链表。

原因：

在HashMap扩容时，会改变链表中的元素的顺序，将元素从链表头部插入。（为了避免尾部遍历）。而环形链表就在这一时刻发生。添加元素时，如果超过阈值，就要进行扩容，如果两个元素同时添加，线程A和线程B可能同时扩容。线程A准备扩容时，线程B开始执行，扩容完毕，产生新的hashMap. 此时A—>Bnull变成B—>A null，先将A复制到新的hash表中，然后接着复制B到链头（A的前边：B.next=A），本来B.next=null，到此也就结束了（跟线程二一样的过程），但是，由于线程二扩容的原因，将B.next=A，所以，这里继续复制A，让A.next=B，由此，环形链表出现：B.next=A; A.next=B。本来应该通过 A.next=B来让A指向null 的，但是线程A已经把A.next变成B的位置了。所有行成回环。

5.HashSet

简介：

HashSet 是一个没有重复元素的集合。

它是由HashMap实现的，不保证元素的顺序，而且HashSet允许使用 null 元素。

HashSet是非同步的。如果多个线程同时访问一个哈希 set，而其中至少一个线程修改了该 set，那么它必须保持外部同步。这通常是通过对自然封装该 set 的对象执行同步操作来完成的。如果不存在这样的对象，则应该使用 Collections.synchronizedSet 方法来“包装” set。最好在创建时完成这一操作，以防止对该 set 进行意外的不同步访问：Set s = Collections.synchronizedSet(new HashSet(...));

伪代码实现：

public class MyHashSet<E> {
    private HashMap<E,Object> map;
    private static final Object PRESENT = new Object();
    public MyHashSet(){
        map = new HashMap<E,Object>();
    }
    public int size(){
        return map.size();
    }
    public void add(E e){
        map.put(e,PRESENT);
    }
    public void remove(E e){
        map.remove(e);
    }
}

原文 https://segmentfault.com/a/1190000019823278

正文到此结束