HashMap动态扩容原理解析

一、数据存储容器

在任何编程语言中,经常需要在内存中去临时存放一段数据,可以使用官方封装好的一些集合框架。

HashMap动态扩容原理解析插图
比如说用List、HashMap、Set等等作为临时数据存储的容器。

当创建一个集合对象的时候,实际上就是在内存里面一次性申请了一块内存空间。而这个内存空间的大小是在创建集合对象的时候去指定的。

HashMap动态扩容原理解析插图2
比如HashMap的默认大小是16。

二、动态扩容

在实际开发过程中,需要去存储的数据量往往是大于存储容器的默认大小的。所以,出现容量默认大小不能满足需求时,就需要扩容。而这个扩容的动作是由集合自动完成的,每种集合的扩容规则都有差异。但总的扩容原则是,当集合存储容量达到某个阈值的时候,集合就会进行动态扩容,而更好地满足更多数据存储的需求。

HashMap动态扩容原理解析插图4

而HashMap中,用来存储数据的容器,本质上是一个数组结构。基本的扩容逻辑就是新建一个更长的数据,然后把原来数组里面的数据Copy到新的数组里面就可以了。

那HashMap是在什么触发扩容呢?它的扩容原理是什么呢?

三、扩容原理

当HashMap里面的元素个数超过临界值的时候会自动触发扩容。这个临界值的计算公式如图所示:

HashMap动态扩容原理解析插图6

它等于负载因子 乘以 容量大小,负载因子的默认值是0.75,而容量大小默认是16,。也就是说,第1次扩容的动作会在元素个数达到12的时候触发,扩容的大小是原来的2倍。HashMap的最大容量是Integer.MAX_VALUE也就是2的31次方减1。

HashMap动态扩容原理解析插图8

由于动态扩容机制的存在,所以在实际应用的时候,最好在集合初始化的时候明确去指定集合的大小,从而避免频繁扩容带来性能上的消耗。

假设,向HashMap中插入1024个元素,如果按照默认容量大小是16的情况下,随着元素的不断增加,会造成至少7次扩容。而这7次扩容过程中,需要重新去创建新的Hash表,并且进行数据的迁移,对性能的影响是非常大的。

那为什么负载因子是0.75,而不是其他的值呢?

四、负载因子

HashMap动态扩容原理解析插图10

负载因子表示Hash表中的元素填充程度。负载因子的值越大,也就意味着触发扩容的元素个数就越多。虽然,它的整体空间利用率会比较高,但是Hash冲突的概率也会增加。那么,反之,负载因子的值越小,那么触发扩容元素的个数也就越少,也就意味着Hash冲突的概率也会减少。但是,对于内存空间的浪费自然就比较多了,而且还会增加扩容的频率。

因此,扩容因子的值的设置,本质上就是一个冲突的概率以及空间利用率之间的一个平衡。关于0.75这个值的来源,和统计学里面的泊松分布有关系。

HashMap动态扩容原理解析插图12

HashMap采用的是链式寻址的方式来解决Hash冲突的问题。而为了避免链表过长,导致时间复杂度增加的情况,所以,HashMap判断链表长度大于等于8的时候,就会转换为红黑树,从而提升检索的效率。

HashMap动态扩容原理解析插图14

当负载因子为0.75的时候,链表长度达到8的可能性几乎为0,也就是说,比较好的做到了空间成本和时间成本的平衡。

发表评论