Agent 系统如何把用户反馈接入 DPO/PPO 训练，并用 ELO 评估版本效果？｜阿里巴巴算法面经解析

60 秒回答模板

我会先把反馈闭环分成数据、训练和评估三层。数据层收集用户点赞点踩、人工改写、任务成功失败、工具调用错误、偏好选择和专家标注，但要先清洗噪声、去除作弊和按任务类型分层。训练层要区分 DPO 和 PPO：DPO 更适合已有成对偏好样本时，直接用 chosen/rejected 优化模型偏好；PPO 通常需要奖励模型或可计算 reward，在在线或离线模拟环境中优化策略，工程复杂度和稳定性要求更高。Agent 场景里还要明确优化对象，是 planner、工具选择策略、反思策略还是最终回答模型，不能把所有反馈混在一起。评估层可以用 ELO 让不同 Agent 版本在同一任务集上对战或由评审比较，结合任务成功率、工具正确率、成本延迟和安全指标决定是否上线。核心是反馈不是直接喂给训练，而是要经过归因、偏好构造、离线验证、灰度和回滚。

考点 反馈归因

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

先做反馈归因

Agent 失败可能来自意图理解、规划、工具选择、工具执行、记忆、检索或最终表达。用户点踩或人工修改只是结果信号，训练前要尽量归因，否则可能用错误反馈优化错误模块。

偏好数据要清洗和分层

DPO/PPO 都依赖反馈质量。需要过滤恶意、重复、低置信和上下文不完整样本，按任务类型、风险等级、工具链和用户群分层，并保留原始输入、候选输出、工具 trace 和人工理由。

DPO 适合成对偏好

当能构造 chosen/rejected 样本时，可以用 DPO 让模型更偏向被选择的行为。它相对直接，适合回答风格、计划质量、工具选择建议等有成对比较的场景，但仍要防止偏好数据覆盖面不足。

PPO 更依赖奖励和环境

PPO 通常需要 reward 信号或奖励模型，并在策略更新中控制探索和稳定性。Agent 场景如果要优化多步规划或工具使用，还要有可回放环境、奖励分解、失败保护和成本控制，工程复杂度更高。

ELO 用于版本相对评估

ELO 可以把多个 Agent 版本放在同一任务集或线上对照中比较，由人工、规则或模型评审判断胜负，得到相对强弱排序。它适合版本竞争和回归发现，但要配合绝对指标，避免只赢了对手却不满足业务底线。

上线要有灰度和回滚

训练后的版本要先离线评估，再小流量灰度，观察任务成功、用户采纳、工具误用、成本、延迟和安全拦截。发现 reward hacking、特定任务退化或成本异常时要能回滚。

易错点

把所有用户反馈直接喂给训练，不做归因和清洗。
混淆 DPO 和 PPO，认为都是简单用反馈微调。
没有明确优化对象，是 planner、工具策略还是最终回答模型。
只看 ELO 排名，不看任务成功、安全、成本和延迟底线。
忽略 reward hacking 和特定任务退化。
没有灰度、回滚和版本对比，训练结果无法安全上线。

面试官追问

用户点赞点踩能直接训练吗？

不建议直接用。点赞点踩噪声大，需要结合任务上下文、工具 trace、人工理由和样本清洗，才能转成可靠偏好数据。

DPO 和 PPO 选哪个？

如果已有高质量 chosen/rejected 偏好对，DPO 更直接；如果要优化多步策略并有可靠 reward 或环境，才考虑 PPO。

ELO 为什么适合 Agent 版本评估？

Agent 输出常难以用单一分数衡量。ELO 通过两两比较形成相对排序，便于发现哪个版本在同一任务集上更稳定。

如何防止反馈训练让模型变坏？

保留 holdout 集、分任务评估、安全红线、成本监控和灰度回滚，并检查是否出现迎合评价器或工具滥用。