Temperature 和 Top-K 有什么区别？｜字节跳动前端面经解析

60 秒回答模板

模型生成下一个 token 时会先得到每个候选 token 的 logits，再转换成概率分布。Temperature 是对 logits 做缩放：temperature 越低，概率分布越尖锐，模型更倾向选择最高概率 token；temperature 越高，分布越平，低概率 token 更容易被采样到，输出更发散。Top-K 是候选截断：只保留概率最高的 K 个 token，其他 token 概率置零，再在保留集合里采样。区别是 Temperature 调整所有候选的相对概率，Top-K 限制候选数量。两者可以组合使用，例如低 temperature 加较大 K 仍较稳定，高 temperature 加小 K 会在少数候选里变化。

考点 采样背景

主线 Temperature 作用

易错点 把 Temperature 说成控制候选数量，混淆了它…

深入解析

采样背景

大语言模型不是一次性生成整段文本，而是逐 token 预测。每一步模型会给词表中所有候选 token 一个分数，这些分数经过 softmax 后变成概率。采样策略决定最终从概率分布中选择哪个 token。Temperature、Top-K、Top-P 都属于解码阶段的控制参数，不改变模型训练权重，只改变生成时的选择方式。

Temperature 作用

Temperature 通过缩放 logits 改变概率分布形状。低 temperature 会放大高分 token 与其他 token 的差距，使输出更确定、更保守、更可复现；接近 0 时近似贪心选择。高 temperature 会缩小候选之间的差距，让更多 token 有机会被选中，输出更有多样性，但也更容易跑题、重复或产生不稳定表达。

Top-K 作用

Top-K 的思路是先按概率排序，只保留前 K 个候选，剩余候选直接排除。K 小时，模型只能在少数高概率 token 中选择，输出更受限制；K 大时，候选集合更宽，随机性更高。Top-K 对长尾 token 的控制很直接，即使某些低概率 token 在高 temperature 下被抬高，只要不在前 K，也不会被采样。

核心区别

Temperature 是连续调节概率分布的形状，不直接规定候选个数；Top-K 是离散裁剪候选集合，不直接决定集合内概率差距。低 temperature 可能让一个 token 占据绝大多数概率，但理论上仍在完整候选集上计算；小 K 会把候选范围硬性限制住，但集合内仍可用 temperature 调整随机性。

使用取舍

事实问答、代码生成、信息抽取和格式化输出通常需要较低随机性，以减少漂移和格式错误；创意写作、头脑风暴和多样化改写可以提高随机性。Top-K 适合限制长尾风险，Temperature 适合调整表达发散程度。不同模型和 API 暴露的参数不同，有些产品提供 Top-P 而不是 Top-K，因此调参要以具体接口为准。

易错点

把 Temperature 说成控制候选数量，混淆了它和 Top-K 的作用层。
认为 Top-K 越大输出一定越好，忽略长尾 token 带来的偏离和幻觉风险。
认为低 Temperature 可以保证事实正确，忽略模型本身和上下文可能已经错误。
调参时只看创意性，不考虑任务对格式稳定、可复现、延迟和安全边界的要求。

面试官追问

Temperature 等于 0 是什么意思？

很多系统会把它实现为近似贪心解码，即每一步选择最高概率 token，输出更稳定。但具体是否完全确定还受模型服务、并行计算和其他采样参数影响。

Top-K 和 Top-P 有什么区别？

Top-K 固定保留概率最高的 K 个候选；Top-P 固定保留累计概率达到 P 的候选集合。Top-P 的候选数量会随分布变化，高置信场景候选少，分布平缓时候选多。

低 Temperature 是否一定更准确？

不一定。低温能减少随机性，提升格式和事实回答稳定性，但如果最高概率路径本身错误，低温会稳定地产生同类错误。准确性还依赖上下文、模型能力、检索和校验。

为什么高 Temperature 容易跑题？

高温会让低概率 token 更容易被选中，单步偏离会影响后续上下文，偏差会逐步累积。因此输出可能更有创意，也更容易出现不一致、重复或无关内容。