知识点标签

模型评估面试题解析

模型评估相关面试题解析,按真实面经题目沉淀核心机制、易错点和面试官追问。

2 道题 2 个岗位 1 个公司

模型评估相关面试题

为什么选择 Qwen 作为评测裁判,如何做消融实验和指标评估?

选择 Qwen 作为评测裁判,核心理由通常是中文语义能力、开源可控、成本可控、可本地部署和版本可复现。消融实验要证明裁判选择、提示词、评分规则、样例、检索上下文和投票策略分别带来什么影响,并用人类一致性、排序相关性、稳定性、偏置和成本指标评估。

Temperature 和 Top-K 有什么区别?

Temperature 和 Top-K 都控制大语言模型采样随机性,但作用层不同。Temperature 会整体调整候选 token 的概率分布,低温让高概率 token 更突出,高温让分布更平;Top-K 会先限制候选集合,只允许从概率最高的 K 个 token 中采样。前者改变概率形状,后者裁剪候选范围。