60 秒回答模板

我会先把反馈闭环分成数据、训练和评估三层。数据层收集用户点赞点踩、人工改写、任务成功失败、工具调用错误、偏好选择和专家标注,但要先清洗噪声、去除作弊和按任务类型分层。训练层要区分 DPO 和 PPO:DPO 更适合已有成对偏好样本时,直接用 chosen/rejected 优化模型偏好;PPO 通常需要奖励模型或可计算 reward,在在线或离线模拟环境中优化策略,工程复杂度和稳定性要求更高。Agent 场景里还要明确优化对象,是 planner、工具选择策略、反思策略还是最终回答模型,不能把所有反馈混在一起。评估层可以用 ELO 让不同 Agent 版本在同一任务集上对战或由评审比较,结合任务成功率、工具正确率、成本延迟和安全指标决定是否上线。核心是反馈不是直接喂给训练,而是要经过归因、偏好构造、离线验证、灰度和回滚。

考点 反馈归因
难度 真实面经题
回答目标 讲清机制、训练与评估取舍

深入解析

01

先做反馈归因

Agent 失败可能来自意图理解、规划、工具选择、工具执行、记忆、检索或最终表达。用户点踩或人工修改只是结果信号,训练前要尽量归因,否则可能用错误反馈优化错误模块。

02

偏好数据要清洗和分层

DPO/PPO 都依赖反馈质量。需要过滤恶意、重复、低置信和上下文不完整样本,按任务类型、风险等级、工具链和用户群分层,并保留原始输入、候选输出、工具 trace 和人工理由。

03

DPO 适合成对偏好

当能构造 chosen/rejected 样本时,可以用 DPO 让模型更偏向被选择的行为。它相对直接,适合回答风格、计划质量、工具选择建议等有成对比较的场景,但仍要防止偏好数据覆盖面不足。

04

PPO 更依赖奖励和环境

PPO 通常需要 reward 信号或奖励模型,并在策略更新中控制探索和稳定性。Agent 场景如果要优化多步规划或工具使用,还要有可回放环境、奖励分解、失败保护和成本控制,工程复杂度更高。

05

ELO 用于版本相对评估

ELO 可以把多个 Agent 版本放在同一任务集或线上对照中比较,由人工、规则或模型评审判断胜负,得到相对强弱排序。它适合版本竞争和回归发现,但要配合绝对指标,避免只赢了对手却不满足业务底线。

06

上线要有灰度和回滚

训练后的版本要先离线评估,再小流量灰度,观察任务成功、用户采纳、工具误用、成本、延迟和安全拦截。发现 reward hacking、特定任务退化或成本异常时要能回滚。

易错点

  • 把所有用户反馈直接喂给训练,不做归因和清洗。
  • 混淆 DPO 和 PPO,认为都是简单用反馈微调。
  • 没有明确优化对象,是 planner、工具策略还是最终回答模型。
  • 只看 ELO 排名,不看任务成功、安全、成本和延迟底线。
  • 忽略 reward hacking 和特定任务退化。
  • 没有灰度、回滚和版本对比,训练结果无法安全上线。

面试官追问

用户点赞点踩能直接训练吗?

不建议直接用。点赞点踩噪声大,需要结合任务上下文、工具 trace、人工理由和样本清洗,才能转成可靠偏好数据。

DPO 和 PPO 选哪个?

如果已有高质量 chosen/rejected 偏好对,DPO 更直接;如果要优化多步策略并有可靠 reward 或环境,才考虑 PPO。

ELO 为什么适合 Agent 版本评估?

Agent 输出常难以用单一分数衡量。ELO 通过两两比较形成相对排序,便于发现哪个版本在同一任务集上更稳定。

如何防止反馈训练让模型变坏?

保留 holdout 集、分任务评估、安全红线、成本监控和灰度回滚,并检查是否出现迎合评价器或工具滥用。