60 秒回答模板

我会先把 AIGC 质量拆成稳定性、安全性、可用性和业务效果四类指标,再建立固定回归集和新鲜 badcase 集。每次模型或提示词变更先跑离线评测,只有核心指标不退化、红线指标不触发,才进入小流量灰度。灰度阶段按用户、场景、任务复杂度和风险等级分层放量,同时监控生成成功率、用户采纳率、负反馈率、人工抽检通过率、延迟和成本。出现安全问题、严重质量回归或业务指标显著下降时要自动降级或回滚。最后把线上 badcase 回流到评测集,形成模型迭代、质量门禁和产品策略共同更新的闭环。

考点 指标先分红线和观察
难度 真实面经题
回答目标 设计回归守护和灰度闭环

深入解析

01

先定义不可退化的质量口径

AIGC 质量不能只看模型分数,要拆成用户可感知的维度:生成是否成功、内容是否准确、风格是否符合预期、是否安全合规、是否稳定可复现、是否提升业务目标。每个维度都要有红线指标和观察指标,红线用于拦截发布,观察指标用于判断是否继续放量。

02

离线回归集要分层维护

回归集至少包括高频任务、长尾任务、历史 badcase、安全敏感样本、复杂多轮样本和新模型容易波动的样本。固定集用于判断是否退化,新鲜集用于发现新问题。对主观质量可以结合自动评测、人工标注和模型评审,但必须有一致的评分 Rubric。

03

发布前设置质量门禁

模型、提示词、工具链或策略变更都应该先通过离线门禁。门禁不只是平均分提升,还要看关键分桶是否退化,例如复杂 prompt、低资源语种、多人/多物体场景、敏感内容和高价值用户任务。只要红线分桶显著变差,就不进入线上灰度。

04

灰度要按风险分层放量

灰度不宜直接随机全量。可以先选择低风险场景、内部用户或小比例真实流量,再逐步扩大到高频场景和核心用户。每一层都要有明确放量条件,例如连续一段时间负反馈率不升高、人工抽检通过率达标、延迟成本可接受。

05

线上监控要覆盖质量和体验

线上指标要同时看模型质量和产品体验:生成失败率、重试率、用户采纳率、编辑率、撤回率、投诉率、人工审核拦截率、满意度、任务完成率、首 token 延迟和生成总耗时。AIGC 产品还要关注样式漂移、内容重复、幻觉和安全拦截异常。

06

回滚和复盘要制度化

灰度前就要定义回滚阈值和降级路径,例如切回旧模型、关闭新策略、降低自动化程度、转人工审核或限制高风险场景。发布后把线上 badcase 打标签回流,区分是模型能力、数据、提示词、产品入口还是用户预期问题,再进入下一轮评测集更新。

易错点

  • 只说离线分数提升就可以上线,忽略线上用户体验和安全红线。
  • 把灰度理解成简单 1%、10%、100% 放量,没有按场景风险和用户分层。
  • 只看平均指标,不看高风险场景和关键分桶的质量回归。
  • 没有提前定义回滚阈值,出问题后只能临时争论是否下线。
  • 把人工评测当成一次性验收,没有让 badcase 回流到评测集。
  • 忽略延迟和成本,导致质量提升无法在真实产品链路里稳定提供。

面试官追问

AIGC 质量回归怎么判断是模型问题还是产品策略问题?

要把问题按链路拆开:同样输入在旧模型和新模型上的差异偏模型,入口变化导致 prompt 质量变差偏产品策略,工具调用失败偏工程链路,用户预期不匹配则需要重看场景定义。

自动评测和人工评测冲突时怎么办?

先看冲突发生在哪类样本。自动评测适合规模化趋势和客观规则,人工评测适合主观体验和复杂语义。冲突样本要回到 Rubric,必要时把自动评测改成辅助指标而不是发布红线。

灰度阶段最关键的停止条件是什么?

安全违规、严重事实错误、投诉率显著上升、核心任务完成率明显下降、成本或延迟超过预算,都应触发停止放量、降级或回滚。

如何避免只优化评测集导致线上效果不涨?

评测集要定期加入线上新样本,线上实验要和离线评测一起看,并且保留未参与调参的 holdout 集。否则模型可能只适配固定题库。

小流量灰度样本太少,指标不显著怎么办?

先用高敏感指标和人工抽检判断方向,例如失败率、拦截率和重点场景 badcase;对低频业务指标要延长观察或分层聚合,不能因为样本少就直接全量。

提示词变更也需要走同样门禁吗?

需要。提示词、检索策略、工具调用和后处理都会改变输出质量。可以按变更风险设置轻重不同的门禁,但不能只把模型权重升级当成发布风险。