HashMap 为什么会引入红黑树？｜字节跳动客户端面经解析

60 秒回答模板

可以先说明 HashMap 的基本结构：数组加桶内节点，正常情况下依赖 hash 分散，桶内元素少，查询效率很高。但如果大量 key 落到同一个桶中，桶内链表会变长，get、put、remove 都需要在链表里逐个比较，复杂度可能退化到 O(n)。引入红黑树后，当桶内节点数达到一定阈值且数组容量足够时，链表会树化，桶内查找从 O(n) 优化到 O(log n)。红黑树是近似平衡二叉搜索树，插入、删除、查找都有稳定上界。最后补充：树化不是越早越好，因为树节点更重、维护成本更高，所以 HashMap 会优先扩容，只有在冲突确实集中时才树化。

考点 问题根源是哈希冲突

主线 链表过长会导致退化

易错点 认为 HashMap 引入红黑树后就完全不需要关注 h…

深入解析

问题根源是哈希冲突

HashMap 的理想状态是 key 的哈希值分布均匀，不同元素被分散到数组的不同桶中，这样每个桶内元素很少，查找效率接近常数级。但现实中 hashCode 可能写得不好，数据分布可能天然集中，也可能遇到恶意构造的 key。大量元素落入同一个桶后，这个桶内部就会形成很长的链表，HashMap 的整体性能瓶颈会集中在桶内查找上。

链表过长会导致退化

在链表结构中，查找某个 key 需要从头节点开始逐个比较 hash 和 equals。桶内只有一两个节点时成本很低，但如果一个桶里有成百上千个节点，get、put、remove 都可能扫描大量元素，复杂度从平均 O(1) 退化到 O(n)。这意味着 HashMap 虽然外层还是哈希表，实际表现却接近线性查找，性能稳定性会明显下降。

红黑树提供更稳定上界

红黑树是一种近似平衡的二叉搜索树，通过颜色规则和旋转操作限制树高，使查找、插入、删除在最坏情况下保持 O(log n) 级别。HashMap 在桶内链表足够长时把链表转换为红黑树，本质上是给极端冲突场景加一道保护。即使很多元素落到同一个桶，也不必逐个线性扫描，而是可以沿树路径快速缩小比较范围。

树化有条件，不是默认使用

HashMap 没有一开始就把每个桶做成红黑树，因为红黑树节点占用更多内存，插入删除还需要维护平衡，常规小桶场景下反而不划算。通常只有当桶内节点数达到树化阈值，并且底层数组容量也足够时，才会真正树化；如果数组还比较小，HashMap 更倾向于先扩容，让元素重新分布，因为扩容可能直接缓解冲突。

它优化的是极端场景稳定性

红黑树的引入并不是改变 HashMap 的主设计，主路径仍然是通过良好的 hash 分布实现高效访问。红黑树解决的是冲突严重时的退化问题，让性能曲线不会因为少数桶过长而急剧恶化。面试中要强调这是一种空间、维护成本和最坏性能之间的权衡：平时保持链表轻量，冲突严重时用树结构兜底。

易错点

认为 HashMap 引入红黑树后就完全不需要关注 hashCode 质量。
把红黑树理解成替代数组结构，而不是替代单个桶内过长链表的结构。
忽略树化条件，误以为只要发生哈希冲突就会立刻变成红黑树。
只说红黑树更快，却没有说明链表 O(n) 退化和红黑树 O(log n) 上界之间的差异。

面试官追问

HashMap 为什么不一开始就用红黑树？

因为大多数桶内节点数量很少，链表更省内存、实现更简单、维护成本更低。红黑树只有在链表过长时才体现优势，默认使用会让普通场景付出不必要成本。

树化后查询复杂度一定是 O(log n) 吗？

桶内红黑树查找的上界是 O(log n)，但整个 HashMap 的平均性能仍取决于哈希分布、数组容量和负载因子。红黑树主要保证严重冲突时桶内查找不再线性退化。

为什么数组容量小时优先扩容而不是树化？

数组容量小时，冲突可能只是桶数量不足造成的。扩容后元素会重新分布，链表可能自然变短；这比立即维护红黑树更轻量，也更符合 HashMap 的哈希表设计。

红黑树能解决 hashCode 写得很差的问题吗？

它能缓解性能退化，但不能从根本上修复糟糕的 hashCode。大量 key 仍然集中在同一个桶会增加内存和维护成本，正确做法仍然是设计分布合理且稳定的 hashCode。