真实面经题目 · 原创解析
大模型里的temperature参数能控制复读、增强多样性,背后的原理是什么?
temperature 的本质是调节 softmax 分布的尖锐程度。温度低会放大高概率 token 的优势,使输出更确定、更保守,也更容易陷入高概率重复模式;温度高会拉平概率分布,提高熵和采样多样性,但过高会引入低质量 token,导致语义漂移或不稳定。
真实面经题目 · 原创解析
temperature 的本质是调节 softmax 分布的尖锐程度。温度低会放大高概率 token 的优势,使输出更确定、更保守,也更容易陷入高概率重复模式;温度高会拉平概率分布,提高熵和采样多样性,但过高会引入低质量 token,导致语义漂移或不稳定。
temperature 不是直接理解语义的开关,而是在采样前对 logits 做缩放:p_i = softmax(logit_i / T)。T 小于 1 时分布变尖,高概率 token 更容易被选中,输出更稳定但可能重复;T 大于 1 时分布变平,更多候选 token 有机会被采到,多样性增强但可控性下降。复读问题还会受 top-p、top-k、重复惩罚和上下文状态共同影响。
模型每一步先输出各个 token 的 logits,temperature 会在 softmax 前缩放 logits。T 越小,logits 之间的差距被相对放大,概率集中到少数高分 token;T 越大,差距被压缩,原本概率较低的 token 也获得更多采样机会。
多样性来自采样分布的熵增加。高温度让模型不总是选择最安全、最高概率的表达,因此能产生更丰富的措辞、结构和续写方向。但这只是概率层面的多样性,不保证内容更正确,也不保证推理更强。
复读常发生在模型进入某种高概率循环时,例如前文模式不断强化,下一步最可能 token 又延续同一模板。较低温度或贪心解码会更倾向沿着这个局部高概率路径前进。适当升高温度可能帮助跳出循环,但过高也可能带来随机重复。
实际生成通常不只调 temperature,还会结合 top-k、top-p、presence penalty、frequency penalty、repetition penalty 或 no-repeat ngram 等策略。temperature 调整体分布形状,top-p/top-k 裁剪候选集合,重复惩罚则显式降低已经出现内容的再次概率。
问答、代码、事实检索类任务通常需要较低温度来提升稳定性;创意写作、头脑风暴、文案变体可以使用更高温度。若用户抱怨复读,不能只盲目升温,还要检查 prompt、上下文长度、停止条件、重复惩罚和采样参数组合。
工程上通常表示近似贪心解码,即每一步选择概率最高的 token。数学公式里 T 不能直接取 0,因为会出现除零问题。
temperature 改变所有候选 token 的概率形状;top-p 根据累计概率截断候选集合,只在保留的候选内采样。二者经常配合使用。
不一定。它可能让模型跳出高概率循环,也可能带来更随机的错误和重复。复读严重时通常还要加重复惩罚、调整 prompt、设置停止条件或改变 top-p/top-k。