真实面经题目 · 原创解析
Agent 系统如何把用户反馈接入 DPO/PPO 训练,并用 ELO 评估版本效果?
这题考 Agent 反馈闭环和版本评估,回答重点是如何把用户反馈转成偏好数据、用于 DPO/PPO 优化,并用 ELO 或对战评估做版本选择。
真实面经题目 · 原创解析
这题考 Agent 反馈闭环和版本评估,回答重点是如何把用户反馈转成偏好数据、用于 DPO/PPO 优化,并用 ELO 或对战评估做版本选择。
我会先把反馈闭环分成数据、训练和评估三层。数据层收集用户点赞点踩、人工改写、任务成功失败、工具调用错误、偏好选择和专家标注,但要先清洗噪声、去除作弊和按任务类型分层。训练层要区分 DPO 和 PPO:DPO 更适合已有成对偏好样本时,直接用 chosen/rejected 优化模型偏好;PPO 通常需要奖励模型或可计算 reward,在在线或离线模拟环境中优化策略,工程复杂度和稳定性要求更高。Agent 场景里还要明确优化对象,是 planner、工具选择策略、反思策略还是最终回答模型,不能把所有反馈混在一起。评估层可以用 ELO 让不同 Agent 版本在同一任务集上对战或由评审比较,结合任务成功率、工具正确率、成本延迟和安全指标决定是否上线。核心是反馈不是直接喂给训练,而是要经过归因、偏好构造、离线验证、灰度和回滚。
Agent 失败可能来自意图理解、规划、工具选择、工具执行、记忆、检索或最终表达。用户点踩或人工修改只是结果信号,训练前要尽量归因,否则可能用错误反馈优化错误模块。
DPO/PPO 都依赖反馈质量。需要过滤恶意、重复、低置信和上下文不完整样本,按任务类型、风险等级、工具链和用户群分层,并保留原始输入、候选输出、工具 trace 和人工理由。
当能构造 chosen/rejected 样本时,可以用 DPO 让模型更偏向被选择的行为。它相对直接,适合回答风格、计划质量、工具选择建议等有成对比较的场景,但仍要防止偏好数据覆盖面不足。
PPO 通常需要 reward 信号或奖励模型,并在策略更新中控制探索和稳定性。Agent 场景如果要优化多步规划或工具使用,还要有可回放环境、奖励分解、失败保护和成本控制,工程复杂度更高。
ELO 可以把多个 Agent 版本放在同一任务集或线上对照中比较,由人工、规则或模型评审判断胜负,得到相对强弱排序。它适合版本竞争和回归发现,但要配合绝对指标,避免只赢了对手却不满足业务底线。
训练后的版本要先离线评估,再小流量灰度,观察任务成功、用户采纳、工具误用、成本、延迟和安全拦截。发现 reward hacking、特定任务退化或成本异常时要能回滚。
不建议直接用。点赞点踩噪声大,需要结合任务上下文、工具 trace、人工理由和样本清洗,才能转成可靠偏好数据。
如果已有高质量 chosen/rejected 偏好对,DPO 更直接;如果要优化多步策略并有可靠 reward 或环境,才考虑 PPO。
Agent 输出常难以用单一分数衡量。ELO 通过两两比较形成相对排序,便于发现哪个版本在同一任务集上更稳定。
保留 holdout 集、分任务评估、安全红线、成本监控和灰度回滚,并检查是否出现迎合评价器或工具滥用。