一、源码解读
在HashMap中,我们通常使用public void putAll()
方法对传入的map集合进行批量插入
public void putAll(Map<? extends K, ? extends V> m) {
putMapEntries(m, true);
}
该方法直接调用putMapEntries()
方法,因此我们对其重点关注。
putMapEntries()
方法是所有存放批量数据的核心方法。由于是存放批量数据,所以聪明的小伙伴可能会想到是遍历一个数据集合并对集合中的每一条数据调用putVal()
方法进行存放。如果有不了解putVal()
方法的小伙伴,可以参考前面的文章[HashMap中put()方法源码解读] ,下面我们贴上源码来分析一下
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
// 获取集合大小,
int s = m.size();
if (s > 0) {
// 如果底层数组尚未实例化,则需要计算出满足该数据量的数组长度和响应的阈值,避免在保存数据的时候频繁扩容
if (table == null) { // pre-size
float ft = ((float)s / loadFactor) + 1.0F;
int t = ((ft < (float)MAXIMUM_CAPACITY) ?
(int)ft : MAXIMUM_CAPACITY);
if (t > threshold)
threshold = tableSizeFor(t);
}
// 如果底层数组已经实例化过了,且要保存的数据量大于扩容阈值,则进行扩容
else if (s > threshold)
resize();
// 将参数map集合,转换为entry的set集合,并对每一个entry进行遍历,通过putVal()将每一个entry中的key和value保存到哈希表中
for (Map.Entry<? extends K, ? extends V> e : m.entrySet()) {
K key = e.getKey();
V value = e.getValue();
putVal(hash(key), key, value, false, evict);
}
}
}
这个方法其实没什么好说的,无非就是判断底层数组是否需要扩容,然后对map集合进行批量插入。但即使是批量插入,最终也是循环调用putVal()
方法将集合数据逐个插入的。
其中有一行代码对于初次阅读源码的同学可能有所疑惑
final void putMapEntries(Map<? extends K, ? extends V> m, boolean evict) {
// ...
float ft = ((float)s / loadFactor) + 1.0F;
// ...
}
((float)s / loadFactor) + 1.0F;
为什么要将 集合大小s 除以 加载因子loadFactor 的值 再加一 呢?
首先我们要知道执行这行代码的前提是底层数组为空,因此在批量插入后,集合大小就是当前hashMap对象的数据量了。还有一个就是HashMap的扩容机制是当数据量 = 底层数组长度 * 加载因子loadFactor 时,需要扩容。也就是说,当 数据量 / 加载因子loadFactor = 底层数组长度 时需要对其扩容。因此,如果我们把底层数组的初始长度设置为 数据量 / 加载因子loadFactor 时,其实就需要第二次扩容了,为了避免这第二次扩容,将其商值加一是非常不错的办法。
所以 集合大小s 除以 加载因子loadFactor 的值 再加一 就是为了在确定底层数组长度时一步到位,避免频繁扩容。同时也可以使底层数组的空间利用率最大化。
二、缺陷
说到这里,我发现putMapEntries()
这个方法有个比较矛盾的地方,不知道大家注意到没有
在else if (s > threshold)
这个代码块中,如果结果为true
,则执行一次resize()
进行扩容。我们来分析一下:
进入该代码块的前提是底层数组已经实例化过了,其扩容阈值为threshold
,当我们要插入的集合map的数据量s大于该阈值时,进行一次扩容。问题来了
如果集合map的数据量大于该阈值,仅扩容一次就够了吗?
试想一下,数组长度为16,则阈值为12,当前哈希表中有11个 <key,value> 键值对。此时我需要批量插入一个数据量为100的数据量,按照源码进行一次扩容,扩容后的数组长度为32,则阈值为24,而我要插入100个 <key,value> 键值对,况且现在已经存在11个了,这种情况下,在遍历集合并调用putVal()
方法保存数据时,依然会进行多次扩容,直到数组长度为256,阈值为192,也就是说在遍历期间将会再扩容3次。
因此,集合map的数据量大于该阈值,仅扩容一次可能是不够的,为什么不能像上面那样一步到位,从而避免频繁扩容呢?
所以我说这个方法比较矛盾,是因为它既做到了一步到位,又没有做到一步到位。