标签题目
模型评估相关面试题
为什么选择 Qwen 作为评测裁判,如何做消融实验和指标评估?
选择 Qwen 作为评测裁判,核心理由通常是中文语义能力、开源可控、成本可控、可本地部署和版本可复现。消融实验要证明裁判选择、提示词、评分规则、样例、检索上下文和投票策略分别带来什么影响,并用人类一致性、排序相关性、稳定性、偏置和成本指标评估。
Temperature 和 Top-K 有什么区别?
Temperature 和 Top-K 都控制大语言模型采样随机性,但作用层不同。Temperature 会整体调整候选 token 的概率分布,低温让高概率 token 更突出,高温让分布更平;Top-K 会先限制候选集合,只允许从概率最高的 K 个 token 中采样。前者改变概率形状,后者裁剪候选范围。