用 Qwen 做大模型评测裁判时，如何证明选择合理，并通过消融实验和人工一致性指标评估效果？｜字节跳动算法面经解析

60 秒回答模板

选择 Qwen 做大模型评测裁判，不能只说因为它开源、中文能力强或成本低，而要先回到评测目标：裁判要判断什么任务，是问答正确性、摘要质量、代码解释、风格一致性、业务合规，还是多轮对话满意度。证明选择合理的第一步是建立候选裁判模型池，把 Qwen 不同版本和尺寸与其他可用模型放在同一套人工标注样本上比较，看它与专家判断的一致性、稳定性、可解释性、成本、延迟和部署约束。消融实验可以从四类做。第一是模型消融，对比不同 Qwen 版本、参数规模、量化方式或推理服务配置，观察一致性和成本变化。第二是提示词消融，对比零样本、少样本、评分 rubric、链式解释、只输出分数和结构化 JSON 输出。第三是评分方式消融，对比单答案打分、成对比较、排序比较、多维度加权和多数投票。第四是参数消融，包括 temperature、top_p、max tokens、重复采样次数和是否启用自洽投票。效果评估要以人工一致性为核心。分类或通过率任务可以看 accuracy、macro F1、Cohen's kappa；成对偏好可以看 pairwise agreement；连续分数可以看 Pearson、Spearman、Kendall 或 ICC；还要看不同题型、难度、长度和业务场景的分层表现。交付指标不只是模型分数高，还包括评测覆盖率、裁判稳定性、解释可审计、单条成本、P95 延迟、失败率、人工复核节省量和线上 badcase 回流机制。

考点 不是凭偏好选 Qwen

难度 真实面经题

回答目标 让面试官看到你能把 Qwen 裁判设计成一套可信的评测基础设施，而不是简单调用一个大模型打分。

深入解析

先定义裁判任务

Qwen 是否适合取决于评测对象和判断标准。问答事实性、摘要完整性、代码逻辑、客服话术和安全合规的裁判能力不同，必须先定义输入、输出、评分维度和人工金标准。

用基线证明选择

选择 Qwen 要和可替代方案对比，包括不同版本、不同尺寸和其他裁判模型。比较维度应覆盖人工一致性、稳定性、成本、延迟、中文业务理解、可私有化部署和审计可控性。

消融覆盖关键变量

消融不应只换一个模型名，还要分别拆模型版本、提示词模板、评分 rubric、输出 schema、采样参数、投票次数和评分方式，找出真正影响一致性和稳定性的因素。

人工一致性是主指标

裁判模型本质是在模拟专家判断，所以要用人工标注集验证。分类看 kappa 和 F1，排序看 Kendall 或 pairwise agreement，连续分数看相关系数和 ICC，并做分层误差分析。

交付要可复现

交付时要冻结模型版本、prompt 版本、样本版本和评分规则，记录每次评测的输入输出、解释、成本和延迟。否则即使当前效果好，也难以复盘版本变化带来的结果漂移。

易错点

只说 Qwen 中文能力强或便宜，没有拿人工一致性数据证明。
只换模型版本，不消融 prompt、rubric、参数和评分方式。
用裁判模型互评结果代替人工金标准，形成自我验证。
只报平均准确率，不看分层表现、稳定性和 badcase。
没有冻结版本和记录评测链路，导致结果不可复现。

面试官追问

如果 Qwen 和人工判断不一致，怎么处理？

先做误差归因，区分 rubric 不清、样本歧义、模型误判、人工标注不一致和业务标准变化。高频错误进入 badcase 集，必要时调整评分维度、prompt 或改用人工复核。

为什么不能只看裁判给出的平均分？

平均分可能掩盖题型偏差和长尾错误。裁判模型需要看与人工的一致性、分桶表现、重复运行稳定性和错误类型，否则分数高也可能不可用。

成对比较和直接打分怎么选？

成对比较通常更稳定，适合模型版本胜率评估；直接打分更便于多维诊断，但标尺漂移风险更高。可以用成对比较做主结论，用多维打分解释原因。

交付给业务方时要提供哪些材料？

提供评测集说明、人工标注规范、模型与 prompt 版本、消融结果、人工一致性指标、成本延迟评估、失败案例和后续复核机制。