面试阿里,HashMap 这一篇就够了

简介: 面试阿里,HashMap 这一篇就够了

目录


前言

正文

二狗:天天听你憨逼吹牛,是时候让你知道什么叫残忍了。

二狗:先来点简单的,介绍下 HashMap 的底层数据结构吧。

二狗:为什么要改成数组+链表+红黑树

二狗:那在什么时候用链表?什么时候用红黑树?

狗:为什么链表转红黑树的阈值是8

二狗:(呦呦呦,时间和空间上权衡的结果,还装起B来了)那为什么转回链表节点是用的6而不是复用8

二狗:(小菜鸡,懂得还不少)那 HashMap 有哪些重要属性?分别用于做什么的?

二狗:threshold 除了用于存放扩容阈值还有其他作用吗?

二狗:HashMap 的默认初始容量是多少?HashMap 的容量有什么限制吗?

二狗:(你他娘的是在绕口令吧)你这个*@%#&N次方是怎么算的?

二狗:卧槽,还彪英文,来来来,这代码你给我解释下。

二狗:(这叼毛讲的还凑合啊,连我都听懂了)你说 HashMap 的容量必须是 2 N 次方,这是为什么?

二狗:你说 HashMap 的默认初始容量是 16,为什么是16而不是其他的?

二狗:为什么是0.75而不是其他的?

二狗:为什么不是 0.74 0.76

二狗:那我们换个问题问吧,HashMap 的插入流程是怎么样的?

二狗:图里刚开始有个计算 key hash 值,是怎么设计的?

二狗:为什么要将 hashCode 的高16位参与运算?

二狗:扩容(resize)流程介绍下?

二狗:红黑树和链表都是通过 e.hash & oldCap == 0 来定位在新表的索引位置,这是为什么?

二狗:介绍一下死循环问题?

二狗:(尼玛,没听懂,尴尬了)那总结下 JDK 1.8 主要进行了哪些优化?

二狗:除了 HashMap,还用过哪些 Map,在使用时怎么选择?

二狗:(不妙,这个 B HashMap 懂得比我还多,得赶紧溜)到时间和女朋友吃饭了,我们之后再分胜负。

推荐阅读



前言


某日,囧辉和同事二狗决定就谁是“&#*大厦1111室(只有囧辉和二狗两人HashMap最强者展开一番较量。画面过于血腥,成年人请在未成年人陪同下观看。

image.png


正文


二狗:天天听你憨逼吹牛,是时候让你知道什么叫残忍了。


囧辉:二狗子,这屎可以乱吃,这话不能乱说哦。

image.png

二狗:先来点简单的,介绍下HashMap 的底层数据结构吧。


囧辉:我们现在用的都是 JDK 1.8,底层是由数组+链表+红黑树组成,如下图,而在 JDK 1.8 之前是由数组+链表组成。

image.png

二狗:为什么要改成“数组+链表+红黑树”?


囧辉:主要是为了提升在hash冲突严重时(链表过长)的查找性能,使用链表的查找性能是 O(n),而使用红黑树是 O(logn)


二狗:那在什么时候用链表?什么时候用红黑树?


囧辉:对于插入,默认情况下是使用链表节点。当同一个索引位置的节点在新增后达到9个(阈值8:如果此时数组长度大于等于64,则会触发链表节点转红黑树节点(treeifyBin);而如果数组长度小于64,则不会触发链表转红黑树,而是会进行扩容,因为此时的数据量还比较小。

对于移除,当同一个索引位置的节点在移除后达到6 ,并且该索引位置的节点为红黑树节点,会触发红黑树节点转链表节点(untreeify)。


二狗:为什么链表转红黑树的阈值是8


囧辉:我们平时在进行方案设计时,必须考虑的两个很重要的因素是:时间和空间。对于 HashMap 也是同样的道理,简单来说,阈值为8是在时间和空间上权衡的结果(B 我装定了)。

网络异常,图片无法展示
|

红黑树节点大小约为链表节点的2倍,在节点太少时,红黑树的查找性能优势并不明显,付出2倍空间的代价作者觉得不值得。


理想情况下,使用随机的哈希码,节点分布在 hash 桶中的频率遵循泊松分布,按照泊松分布的公式计算,链表中节点个数为8时的概率为 0.00000006跟大乐透一等奖差不多,中大乐透?不存在的),这个概率足够低了,并且到8个节点时,红黑树的性能优势也会开始展现出来,因此8是一个较合理的数字。


二狗:(呦呦呦,时间和空间上权衡的结果,还装起B来了)那为什么转回链表节点是用的6而不是复用8


囧辉:如果我们设置节点多于8个转红黑树,少于8个就马上转链表,当节点个数在8徘徊时,就会频繁进行红黑树和链表的转换,造成性能的损耗。


二狗:(小菜鸡,懂得还不少)那 HashMap 有哪些重要属性?分别用于做什么的?


囧辉:除了用来存储我们的节点 table 数组外,HashMap 还有以下几个重要属性:1sizeHashMap 已经存储的节点个数;2threshold:扩容阈值,当 HashMap 的个数达到该值,触发扩容。3loadFactor:负载因子,扩容阈值 = 容量* 负载因子。


二狗:threshold 除了用于存放扩容阈值还有其他作用吗?


囧辉:在我们新建 HashMap 对象时, threshold 还会被用来存初始化时的容量。HashMap 直到我们第一次插入节点时,才会对 table 进行初始化,避免不必要的空间浪费。


二狗:HashMap 的默认初始容量是多少?HashMap 的容量有什么限制吗?


囧辉:默认初始容量是16HashMap 的容量必须是2N次方,HashMap会根据我们传入的容量计算一个大于等于该容量的最小的2N次方,例如传 9,容量为16


二狗:(你他娘的是在绕口令吧)你这个*@%#&N次方是怎么算的?


囧辉:Talk is cheap. Show you the code

static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

二狗:卧槽,还彪英文,来来来,这代码你给我解释下。


囧辉:我们先不看第一行“int n = cap - 1”,先看下面的5行计算。

|=(或等于):这个符号比较少见,但是“+=”应该都见过,看到这你应该明白了。例如:a |= b ,可以转成:a = a | b

image.png

>>>(无符号右移):例如 a >>> b 指的是将a 向右移动 b 指定的位数,右移后左边空出的位用零来填充,移出右边的位被丢弃。

image.png

假设n 的值为 0010 0001,则该计算如下图:

image.png

相信你应该看出来,这5个公式会通过最高位的1,拿到214181161321。当然,有多少个1,取决于我们的入参有多大,但我们肯定的是经过这5个计算,得到的值是一个低位全是1的值,最后返回的时候 +1,则会得到1个比n 大的 2 N次方。

这时再看开头的cap - 1 就很简单了,这是为了处理 cap 本身就是 2 N次方的情况。

计算机底层是二进制的,移位和或运算是非常快的,所以这个方法的效率很高。

PS:这是 HashMap 中我个人最喜欢的设计,非常巧妙,真想给作者一个么么哒(不小心暴露了)。

image.png

二狗:(这叼毛讲的还凑合啊,连我都听懂了)你说 HashMap 的容量必须是 2 N 次方,这是为什么?


囧辉:计算索引位置的公式为:(n - 1) & hash,当 n 2 N次方时,n - 1 为低位全是 1 的值,此时任何值跟n - 1 进行 & 运算的结果为该值的低 N 位,达到了和取模同样的效果,实现了均匀分布。实际上,这个设计就是基于公式:x mod 2^n = x & (2^n - 1),因为& 运算比 mod 具有更高的效率。

如下图,当n 不为 2 N 次方时,hash 冲突的概率明显增大。

image.png

二狗:你说 HashMap 的默认初始容量是 16,为什么是16而不是其他的?

囧辉:(这是什么煞笔问题)我认为是16的原因主要是:162N次方,并且是一个较合理的大小。如果用832,我觉得也是OK的。实际上,我们在新建 HashMap 时,最好是根据自己使用情况设置初始容量,这才是最合理的方案。

image.png

二狗:刚才说的负载因子默认初始值又是多少?


囧辉:负载因子默认值是0.75


二狗:为什么是0.75而不是其他的?


囧辉:(又问这种憨逼问题)这个也是在时间和空间上权衡的结果。如果值较高,例如1,此时会减少空间开销,但是 hash 冲突的概率会增大,增加查找成本;而如果值较低,例如 0.5,此时 hash 冲突会降低,但是有一半的空间会被浪费,所以折衷考虑 0.75似乎是一个合理的值。


二狗:为什么不是 0.74 0.76


囧辉:

image.png

二狗:那我们换个问题问吧,HashMap的插入流程是怎么样的?

image.png

囧辉:Talk is cheap. Show you the picture

image.png

image.png


二狗:图里刚开始有个计算 key hash 值,是怎么设计的?


囧辉:拿到key hashCode,并将 hashCode 的高16位和hashCode 进行异或(XOR)运算,得到最终的 hash 值。

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

二狗:为什么要将 hashCode 的高16位参与运算?


囧辉:主要是为了在 table 的长度较小的时候,让高位也参与运算,并且不会有太大的开销。


例如下图,如果不加入高位运算,由于 n - 1 0000 0111,所以结果只取决于 hash 值的低3位,无论高位怎么变化,结果都是一样的。

image.png

如果我们将高位参与运算,则索引计算结果就不会仅取决于低位。

image.png

image.png

二狗:扩容(resize)流程介绍下?

囧辉:

image.png

image.png

二狗:红黑树和链表都是通过 e.hash & oldCap == 0 来定位在新表的索引位置,这是为什么?

囧辉:请看对下面的例子。

扩容前 table 的容量为16a节点和 b 节点在扩容前处于同一索引位置。

image.png

扩容后,table长度为32,新表的 n - 1 只比老表的 n - 1 在高位多了一个1(图中标红)。

image.png

因为 2个节点在老表是同一个索引位置,因此计算新表的索引位置时,只取决于新表在高位多出来的这一位(图中标红),而这一位的值刚好等于 oldCap

因为只取决于这一位,所以只会存在两种情况:1  (e.hash & oldCap) == 0 ,则新表索引位置为原索引位置2(e.hash & oldCap) != 0,则新表索引位置为原索引+ oldCap 位置


二狗:HashMap是线程安全的吗?


囧辉:不是。HashMap在并发下存在数据覆盖、遍历的同时进行修改会抛出 ConcurrentModificationException 异常等问题,JDK 1.8 之前还存在死循环问题。


二狗:介绍一下死循环问题?


囧辉:导致死循环的根本原因是 JDK 1.7 扩容采用的是头插法,会导致同一索引位置的节点在扩容后顺序反掉。而JDK 1.8 之后采用的是尾插法,扩容后节点顺序不会反掉,不存在死循环问题。

JDK 1.7.0 的扩容代码如下,用例子来看会好理解点。

void transfer(Entry[] newTable) {
    Entry[] src = table;
    int newCapacity = newTable.length;
    for (int j = 0; j < src.length; j++) {
        Entry<K,V> e = src[j];
        if (e != null) {
            src[j] = null;
            do {
                Entry<K,V> next = e.next;
                int i = indexFor(e.hash, newCapacity);
                e.next = newTable[i];
                newTable[i] = e;
                e = next;
            } while (e != null);
        }
    }
}

PS:这个流程较难理解,建议对着代码自己模拟走一遍。

例子:我们有1个容量为2HashMaploadFactor=0.75,此时线程1和线程2同时往该 HashMap 插入一个数据,都触发了扩容流程,接着有以下流程。

1)在2个线程都插入节点,触发扩容流程之前,此时的结构如下图。

image.png

2)线程1进行扩容,执行到代码:Entry next = e.next 后被调度挂起,此时的结构如下图。

image.png

3)线程1被挂起后,线程2进入扩容流程,并走完整个扩容流程,此时的结构如下图。

image.png


由于两个线程操作的是同一个 table,所以该图又可以画成如下图。

image.png

4)线程1恢复后,继续走完第一次的循环流程,此时的结构如下图。

image.png

5)线程1继续走完第二次循环,此时的结构如下图。

image.png

6)线程1继续执行第三次循环,执行到 e.next = newTable[i] 时形成环,执行完第三次循环的结构如下图。


如果此时线程1调用map.get(11) ,悲剧就出现了——Infinite Loop


二狗:(尼玛,没听懂,尴尬了)那总结下 JDK 1.8 主要进行了哪些优化?


囧辉:JDK 1.8 的主要优化刚才我们都聊过了,主要有以下几点:


1)底层数据结构从数组+链表改成数组+链表+红黑树,主要是优化了 hash 冲突较严重时,链表过长的查找性能:O(n) -> O(logn)


2)计算 table 初始容量的方式发生了改变,老的方式是从1开始不断向左进行移位运算,直到找到大于等于入参容量的值;新的方式则是通过“5个移位+或等于运算来计算。

// JDK 1.7.0
public HashMap(int initialCapacity, float loadFactor) {
    // 省略
    // Find a power of 2 >= initialCapacity
    int capacity = 1;
    while (capacity < initialCapacity)
        capacity <<= 1;
    // ... 省略
}
// JDK 1.8.0_191
static final int tableSizeFor(int cap) {
    int n = cap - 1;
    n |= n >>> 1;
    n |= n >>> 2;
    n |= n >>> 4;
    n |= n >>> 8;
    n |= n >>> 16;
    return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

3)优化了 hash 值的计算方式,老的通过一顿瞎JB操作,新的只是简单的让高16位参与了运算。

// JDK 1.7.0
static int hash(int h) {
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}
// JDK 1.8.0_191
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

4)扩容时插入方式从头插法改成尾插法,避免了并发下的死循环。

5)扩容时计算节点在新表的索引位置方式从“h & (length-1)”改成“hash & oldCap”,性能可能提升不大,但设计更巧妙、更优雅。

二狗:除了 HashMap,还用过哪些 Map,在使用时怎么选择?


囧辉:

image.png

二狗:(不妙,这个 B HashMap 懂得比我还多,得赶紧溜)到时间和女朋友吃饭了,我们之后再分胜负。

囧辉:

image.png


越努力,越幸运。转发【朋友圈】【收藏】【点赞】,是对囧辉最大的支持。


推荐阅读


Java 基础高频面试题(2021年最新版)

921天,咸鱼到阿里的修仙之路

两年Java开发工作经验面试总结

4 Java 经验,阿里网易拼多多面试总结、心得体会

5 Java 经验,字节、美团、快手核心部门面试总结(真题解析)

复习2个月拿下美团offer,我都做了些啥

如何写一份让 HR 眼前一亮的简历(附模板)

面试阿里,HashMap 这一篇就够了

面试必问的 MySQL,你懂了吗?

面试必问的线程池,你懂了吗?

跳槽,如何选择一家公司

如何准备好一场大厂面试

面试必问的分布式锁,你懂了吗?

相关文章
|
2天前
|
监控 Kubernetes Java
阿里面试:5000qps访问一个500ms的接口,如何设计线程池的核心线程数、最大线程数? 需要多少台机器?
本文由40岁老架构师尼恩撰写,针对一线互联网企业的高频面试题“如何确定系统的最佳线程数”进行系统化梳理。文章详细介绍了线程池设计的三个核心步骤:理论预估、压测验证和监控调整,并结合实际案例(5000qps、500ms响应时间、4核8G机器)给出具体参数设置建议。此外,还提供了《尼恩Java面试宝典PDF》等资源,帮助读者提升技术能力,顺利通过大厂面试。关注【技术自由圈】公众号,回复“领电子书”获取更多学习资料。
|
3月前
|
存储 关系型数据库 MySQL
阿里面试:为什么要索引?什么是MySQL索引?底层结构是什么?
尼恩是一位资深架构师,他在自己的读者交流群中分享了关于MySQL索引的重要知识点。索引是帮助MySQL高效获取数据的数据结构,主要作用包括显著提升查询速度、降低磁盘I/O次数、优化排序与分组操作以及提升复杂查询的性能。MySQL支持多种索引类型,如主键索引、唯一索引、普通索引、全文索引和空间数据索引。索引的底层数据结构主要是B+树,它能够有效支持范围查询和顺序遍历,同时保持高效的插入、删除和查找性能。尼恩还强调了索引的优缺点,并提供了多个面试题及其解答,帮助读者在面试中脱颖而出。相关资料可在公众号【技术自由圈】获取。
|
6天前
|
人工智能 缓存 Ubuntu
AI+树莓派=阿里P8技术专家。模拟面试、学技术真的太香了 | 手把手教学
本课程由阿里P8技术专家分享,介绍如何使用树莓派和阿里云服务构建AI面试助手。通过模拟面试场景,讲解了Java中`==`与`equals`的区别,并演示了从硬件搭建、语音识别、AI Agent配置到代码实现的完整流程。项目利用树莓派作为核心,结合阿里云的实时语音识别、AI Agent和文字转语音服务,实现了一个能够回答面试问题的智能玩偶。课程展示了AI应用的简易构建过程,适合初学者学习和实践。
55 22
|
17天前
|
存储 算法 Java
面试必备!一文搞懂HashMap如何优雅处理哈希冲突
大家好,我是小米,一个积极的程序员。今天聊聊Java面试中的常见问题——“HashMap是怎么解决哈希冲突的?”。通过一个小故事,我们了解到HashMap使用链地址法(JDK 1.8前)和红黑树(JDK 1.8后)来处理哈希冲突。链地址法用链表存储冲突的元素,而红黑树在链表长度超过8时启用,提升查找效率。希望这个讲解能帮助你更好地理解HashMap的工作原理。欢迎留言讨论,关注我的公众号“软件求生”,获取更多技术干货!
31 3
|
27天前
|
存储 Java 索引
HashMap高频面试题,让你掌握青铜回答与王者级回答,你值得拥有
《HashMap高频面试题,让你掌握青铜回答与王者级回答,你值得拥有》介绍了HashMap的实现原理、数据存储、哈希冲突处理及扩容机制。文章通过对比JDK 1.7和JDK 1.8版本,详细解析了不同版本中的链表与红黑树结构、Entry与Node的区别,以及put()方法的具体实现。特别指出JDK 1.8引入红黑树优化查询性能,并采用尾插法避免多线程环境下的链表环问题。负载因子和扩容机制确保了HashMap在不同场景下的高效运行。
40 2
|
1月前
|
存储 NoSQL 架构师
阿里面试:聊聊 CAP 定理?哪些中间件是AP?为什么?
本文深入探讨了分布式系统中的“不可能三角”——CAP定理,即一致性(C)、可用性(A)和分区容错性(P)三者无法兼得。通过实例分析了不同场景下如何权衡CAP,并介绍了几种典型分布式中间件的CAP策略,强调了理解CAP定理对于架构设计的重要性。
87 4
|
2月前
|
存储 NoSQL 算法
阿里面试:亿级 redis 排行榜,如何设计?
本文由40岁老架构师尼恩撰写,针对近期读者在一线互联网企业面试中遇到的高频面试题进行系统化梳理,如使用ZSET排序统计、亿级用户排行榜设计等。文章详细介绍了Redis的四大统计(基数统计、二值统计、排序统计、聚合统计)原理和应用场景,重点讲解了Redis有序集合(Sorted Set)的使用方法和命令,以及如何设计社交点赞系统和游戏玩家排行榜。此外,还探讨了超高并发下Redis热key分治原理、亿级用户排行榜的范围分片设计、Redis Cluster集群持久化方式等内容。文章最后提供了大量面试真题和解决方案,帮助读者提升技术实力,顺利通过面试。
|
2月前
|
SQL 关系型数据库 MySQL
阿里面试:1000万级大表, 如何 加索引?
45岁老架构师尼恩在其读者交流群中分享了如何在生产环境中给大表加索引的方法。文章详细介绍了两种索引构建方式:在线模式(Online DDL)和离线模式(Offline DDL),并深入探讨了 MySQL 5.6.7 之前的“影子策略”和 pt-online-schema-change 方案,以及 MySQL 5.6.7 之后的内部 Online DDL 特性。通过这些方法,可以有效地减少 DDL 操作对业务的影响,确保数据的一致性和完整性。尼恩还提供了大量面试题和解决方案,帮助读者在面试中充分展示技术实力。
|
3月前
|
消息中间件 存储 canal
阿里面试:canal+MQ,会有乱序的问题吗?
本文详细探讨了在阿里面试中常见的问题——“canal+MQ,会有乱序的问题吗?”以及如何保证RocketMQ消息有序。文章首先介绍了消息有序的基本概念,包括全局有序和局部有序,并分析了RocketMQ中实现消息有序的方法。接着,针对canal+MQ的场景,讨论了如何通过配置`canal.mq.partitionsNum`和`canal.mq.partitionHash`来保证数据同步的有序性。最后,提供了多个与MQ相关的面试题及解决方案,帮助读者更好地准备面试,提升技术水平。
阿里面试:canal+MQ,会有乱序的问题吗?
|
3月前
|
存储 Java 程序员
Java面试加分点!一文读懂HashMap底层实现与扩容机制
本文详细解析了Java中经典的HashMap数据结构,包括其底层实现、扩容机制、put和查找过程、哈希函数以及JDK 1.7与1.8的差异。通过数组、链表和红黑树的组合,HashMap实现了高效的键值对存储与检索。文章还介绍了HashMap在不同版本中的优化,帮助读者更好地理解和应用这一重要工具。
89 5

热门文章

最新文章