真实面经题目 · 原创解析
用 Qwen 做大模型评测裁判时,如何证明选择合理,并通过消融实验和人工一致性指标评估效果?
这题考候选人是否能把 LLM-as-judge 从“用了一个模型打分”提升到可证明、可复现、可交付的评测系统。回答要说明为什么 Qwen 适合当前评测任务,并用版本、参数、提示词、评分维度、人工一致性和交付指标证明选择不是拍脑袋。
真实面经题目 · 原创解析
这题考候选人是否能把 LLM-as-judge 从“用了一个模型打分”提升到可证明、可复现、可交付的评测系统。回答要说明为什么 Qwen 适合当前评测任务,并用版本、参数、提示词、评分维度、人工一致性和交付指标证明选择不是拍脑袋。
选择 Qwen 做大模型评测裁判,不能只说因为它开源、中文能力强或成本低,而要先回到评测目标:裁判要判断什么任务,是问答正确性、摘要质量、代码解释、风格一致性、业务合规,还是多轮对话满意度。证明选择合理的第一步是建立候选裁判模型池,把 Qwen 不同版本和尺寸与其他可用模型放在同一套人工标注样本上比较,看它与专家判断的一致性、稳定性、可解释性、成本、延迟和部署约束。 消融实验可以从四类做。第一是模型消融,对比不同 Qwen 版本、参数规模、量化方式或推理服务配置,观察一致性和成本变化。第二是提示词消融,对比零样本、少样本、评分 rubric、链式解释、只输出分数和结构化 JSON 输出。第三是评分方式消融,对比单答案打分、成对比较、排序比较、多维度加权和多数投票。第四是参数消融,包括 temperature、top_p、max tokens、重复采样次数和是否启用自洽投票。 效果评估要以人工一致性为核心。分类或通过率任务可以看 accuracy、macro F1、Cohen's kappa;成对偏好可以看 pairwise agreement;连续分数可以看 Pearson、Spearman、Kendall 或 ICC;还要看不同题型、难度、长度和业务场景的分层表现。交付指标不只是模型分数高,还包括评测覆盖率、裁判稳定性、解释可审计、单条成本、P95 延迟、失败率、人工复核节省量和线上 badcase 回流机制。
Qwen 是否适合取决于评测对象和判断标准。问答事实性、摘要完整性、代码逻辑、客服话术和安全合规的裁判能力不同,必须先定义输入、输出、评分维度和人工金标准。
选择 Qwen 要和可替代方案对比,包括不同版本、不同尺寸和其他裁判模型。比较维度应覆盖人工一致性、稳定性、成本、延迟、中文业务理解、可私有化部署和审计可控性。
消融不应只换一个模型名,还要分别拆模型版本、提示词模板、评分 rubric、输出 schema、采样参数、投票次数和评分方式,找出真正影响一致性和稳定性的因素。
裁判模型本质是在模拟专家判断,所以要用人工标注集验证。分类看 kappa 和 F1,排序看 Kendall 或 pairwise agreement,连续分数看相关系数和 ICC,并做分层误差分析。
交付时要冻结模型版本、prompt 版本、样本版本和评分规则,记录每次评测的输入输出、解释、成本和延迟。否则即使当前效果好,也难以复盘版本变化带来的结果漂移。
先做误差归因,区分 rubric 不清、样本歧义、模型误判、人工标注不一致和业务标准变化。高频错误进入 badcase 集,必要时调整评分维度、prompt 或改用人工复核。
平均分可能掩盖题型偏差和长尾错误。裁判模型需要看与人工的一致性、分桶表现、重复运行稳定性和错误类型,否则分数高也可能不可用。
成对比较通常更稳定,适合模型版本胜率评估;直接打分更便于多维诊断,但标尺漂移风险更高。可以用成对比较做主结论,用多维打分解释原因。
提供评测集说明、人工标注规范、模型与 prompt 版本、消融结果、人工一致性指标、成本延迟评估、失败案例和后续复核机制。