60 秒回答模板

Agentic RL 里不能一上来就做 RL。SFT 阶段的目标是让模型学会任务格式、工具调用协议、基本规划、异常处理和可读轨迹;RL 阶段才用 reward 强化更高成功率、更低成本、更好策略选择。判断能否从 SFT 进入 RL,我会看六个 gate。第一,模型能稳定生成合法 action 和 tool schema,不频繁格式错、参数错或死循环。第二,在代表性任务上已有非零且足够稳定的基础成功率,否则稀疏 reward 下 RL 很难学。第三,轨迹质量可读,失败原因能被日志、状态和评测器定位。第四,reward 或 verifier 已经可信,能区分真实完成、部分完成和投机完成。第五,安全和沙箱机制就绪,错误工具调用、越权操作和长循环能被限制。第六,SFT 数据覆盖了主要任务类型和边界情况,RL 不是用来补最基础的指令跟随。若这些条件不满足,应先补示范数据、清洗轨迹、修工具协议和评测器;满足后再用 RL 优化策略偏好,并用 KL、成功率、成本、旧能力回归和 badcase 审计控制训练。

考点 SFT 打底
难度 真实面经题
回答目标 讲清机制、训练与评估取舍

深入解析

01

先区分 SFT 和 RL 的职责

Agentic 项目中,SFT 主要让模型模仿高质量轨迹,学会任务分解、工具调用格式、观察结果读取和最终回答。RL 主要在已有基础能力上,根据任务成功、成本、时长、安全和偏好继续优化策略选择。

02

第一个 gate 是协议合法

如果模型还经常生成非法 JSON、错误工具名、缺失参数、无法解析的 action 或无意义循环,就不适合进入 RL。此时 reward 再好也会被大量无效轨迹淹没,应优先用 SFT 数据和解码约束修协议。

03

第二个 gate 是基础成功率

RL 需要从采样轨迹中看到成功和失败的差异。如果 SFT 模型几乎从不完成任务,稀疏 reward 就很难提供有效学习信号。进入 RL 前至少要在核心任务集上有稳定的成功样本和可比较的失败样本。

04

第三个 gate 是 reward 可信

Agentic RL 的 reward 要能判断任务是否真的完成,而不是只看模型自称完成。要有环境状态、工具日志、单测、检索证据、人工标注或 verifier 支撑,并能区分成功、部分成功、无效成功和安全违规。

05

第四个 gate 是运行环境可控

Agentic RL 会大量 rollout,必须有沙箱、权限、超时、步数预算、成本预算、工具 allowlist 和日志追踪。否则训练会被不安全调用、长循环、无效工具和不可复现状态污染。

06

最后看覆盖和回归

SFT 数据要覆盖主要任务类型、工具组合和边界情况。进入 RL 后要监控成功率、平均步数、工具错误率、成本、KL、旧能力回归和安全 badcase。RL 是提高策略,不是替代缺失的基础示范数据。

易错点

  • 把 RL 当成补基础能力的万能手段,忽略 SFT 应先学会任务格式和工具协议。
  • 没有基础成功率就进入稀疏 reward 训练,导致采样几乎全是无效失败。
  • 只用模型最终文本判断任务成功,不核对工具日志和环境状态。
  • 没有沙箱、步数、超时和成本预算,rollout 污染训练数据甚至带来安全风险。
  • 只看平均成功率,不按任务类型、工具类型和失败原因分层分析。
  • 进入 RL 后不做旧能力回归,导致模型变得会做训练任务但通用能力下降。

面试官追问

如果 SFT 成功率很低,直接 RL 会怎样?

多数 rollout 都是失败轨迹,reward 太稀疏,训练容易变成噪声优化或学到投机策略。更合理的是补高质量示范、修工具协议和设计更稠密的中间反馈。

Agentic RL 的 reward 可以只看最终答案吗?

通常不够。最终答案可能自称完成但工具实际失败。应结合环境状态、工具执行日志、中间检查点、最终结果和安全约束综合判断。

SFT 到 RL 的 gate 中最容易被忽略的是什么?

常被忽略的是运行环境和评测器可靠性。没有可复现沙箱、日志和 verifier,RL 采样出来的 reward 很难可信,也难以排查失败。

进入 RL 后如何防止旧能力退化?

保留 KL 或行为克隆约束,固定旧任务回归集,监控通用问答、工具协议、安全拒答和成本指标,必要时混合 SFT loss 或回滚 checkpoint。