真实面经题目 · 原创解析
InfoNCE 的温度系数有什么作用?
温度系数控制 InfoNCE 对相似度差异的敏感程度,本质是在调 softmax 分布的尖锐度、梯度强度和难负样本权重。
真实面经题目 · 原创解析
温度系数控制 InfoNCE 对相似度差异的敏感程度,本质是在调 softmax 分布的尖锐度、梯度强度和难负样本权重。
InfoNCE 会把一个 query 和正样本、多个负样本的相似度放进 softmax,温度系数通常写在相似度除以 tau 的位置。tau 小时,相似度差异会被放大,softmax 更尖锐,模型更关注最难负样本,梯度更集中,但过小容易训练不稳定或过拟合噪声。tau 大时,分布更平滑,负样本权重更平均,训练更温和,但可能区分度不足。实际选择温度要结合 embedding 归一化、batch 内负样本数量、相似度尺度、数据噪声和下游指标调参。
InfoNCE 的分母是正负样本相似度的 softmax 归一化。把相似度除以 tau 后,tau 直接改变 logits 的尺度,从而改变概率分布和梯度分配。
tau 越小,相似度差距越被放大,最像正样本的负样本会获得更高权重。这样能强化判别性,但如果负样本有假负例或噪声,模型也会更容易被误导。
tau 越大,正负样本概率差距被压平,训练信号更平均,优化过程通常更稳定。但温度过大时,模型对难负样本不够敏感,embedding 聚类边界可能不够清晰。
batch 内负样本越多,出现难负样本和假负样本的概率越高,温度需要配合 batch size、采样策略和去噪策略一起调,而不是固定套一个经验值。
温度不是只看训练 loss。推荐、检索或匹配场景要看 Recall、NDCG、AUC、线上点击转化和 embedding 分布,必要时还要按用户或物品长尾切片评估。
softmax 过尖,梯度集中在少数样本上,遇到假负例或噪声会更不稳定,也可能导致表示空间过度分离。
正负样本差异被抹平,模型对难负样本不敏感,学到的 embedding 判别性可能不足。
仍然重要。归一化限制了相似度范围,温度继续控制 logits 尺度和 softmax 梯度分配。
用验证集和线上指标调参,同时观察召回、排序指标、热门长尾切片和假负样本影响。