真实面经题目 · 原创解析
AIGC 模型持续迭代时如何设计质量回归守护和灰度机制?
这题考 AIGC 模型持续迭代后的质量守护,回答要把离线回归、灰度分流、线上监控、回滚阈值和复盘机制连成闭环。
真实面经题目 · 原创解析
这题考 AIGC 模型持续迭代后的质量守护,回答要把离线回归、灰度分流、线上监控、回滚阈值和复盘机制连成闭环。
我会先把 AIGC 质量拆成稳定性、安全性、可用性和业务效果四类指标,再建立固定回归集和新鲜 badcase 集。每次模型或提示词变更先跑离线评测,只有核心指标不退化、红线指标不触发,才进入小流量灰度。灰度阶段按用户、场景、任务复杂度和风险等级分层放量,同时监控生成成功率、用户采纳率、负反馈率、人工抽检通过率、延迟和成本。出现安全问题、严重质量回归或业务指标显著下降时要自动降级或回滚。最后把线上 badcase 回流到评测集,形成模型迭代、质量门禁和产品策略共同更新的闭环。
AIGC 质量不能只看模型分数,要拆成用户可感知的维度:生成是否成功、内容是否准确、风格是否符合预期、是否安全合规、是否稳定可复现、是否提升业务目标。每个维度都要有红线指标和观察指标,红线用于拦截发布,观察指标用于判断是否继续放量。
回归集至少包括高频任务、长尾任务、历史 badcase、安全敏感样本、复杂多轮样本和新模型容易波动的样本。固定集用于判断是否退化,新鲜集用于发现新问题。对主观质量可以结合自动评测、人工标注和模型评审,但必须有一致的评分 Rubric。
模型、提示词、工具链或策略变更都应该先通过离线门禁。门禁不只是平均分提升,还要看关键分桶是否退化,例如复杂 prompt、低资源语种、多人/多物体场景、敏感内容和高价值用户任务。只要红线分桶显著变差,就不进入线上灰度。
灰度不宜直接随机全量。可以先选择低风险场景、内部用户或小比例真实流量,再逐步扩大到高频场景和核心用户。每一层都要有明确放量条件,例如连续一段时间负反馈率不升高、人工抽检通过率达标、延迟成本可接受。
线上指标要同时看模型质量和产品体验:生成失败率、重试率、用户采纳率、编辑率、撤回率、投诉率、人工审核拦截率、满意度、任务完成率、首 token 延迟和生成总耗时。AIGC 产品还要关注样式漂移、内容重复、幻觉和安全拦截异常。
灰度前就要定义回滚阈值和降级路径,例如切回旧模型、关闭新策略、降低自动化程度、转人工审核或限制高风险场景。发布后把线上 badcase 打标签回流,区分是模型能力、数据、提示词、产品入口还是用户预期问题,再进入下一轮评测集更新。
要把问题按链路拆开:同样输入在旧模型和新模型上的差异偏模型,入口变化导致 prompt 质量变差偏产品策略,工具调用失败偏工程链路,用户预期不匹配则需要重看场景定义。
先看冲突发生在哪类样本。自动评测适合规模化趋势和客观规则,人工评测适合主观体验和复杂语义。冲突样本要回到 Rubric,必要时把自动评测改成辅助指标而不是发布红线。
安全违规、严重事实错误、投诉率显著上升、核心任务完成率明显下降、成本或延迟超过预算,都应触发停止放量、降级或回滚。
评测集要定期加入线上新样本,线上实验要和离线评测一起看,并且保留未参与调参的 holdout 集。否则模型可能只适配固定题库。
先用高敏感指标和人工抽检判断方向,例如失败率、拦截率和重点场景 badcase;对低频业务指标要延长观察或分层聚合,不能因为样本少就直接全量。
需要。提示词、检索策略、工具调用和后处理都会改变输出质量。可以按变更风险设置轻重不同的门禁,但不能只把模型权重升级当成发布风险。