真实面经题目 · 原创解析
Agentic RL 项目中,如何判断 SFT 阶段已经可以进入 RL 后训练?
这题考 Agentic RL 的训练阶段判断,重点是 SFT 是否已经让模型具备稳定轨迹、工具协议、基础成功率和可评估 reward,再决定进入 RL。
真实面经题目 · 原创解析
这题考 Agentic RL 的训练阶段判断,重点是 SFT 是否已经让模型具备稳定轨迹、工具协议、基础成功率和可评估 reward,再决定进入 RL。
Agentic RL 里不能一上来就做 RL。SFT 阶段的目标是让模型学会任务格式、工具调用协议、基本规划、异常处理和可读轨迹;RL 阶段才用 reward 强化更高成功率、更低成本、更好策略选择。判断能否从 SFT 进入 RL,我会看六个 gate。第一,模型能稳定生成合法 action 和 tool schema,不频繁格式错、参数错或死循环。第二,在代表性任务上已有非零且足够稳定的基础成功率,否则稀疏 reward 下 RL 很难学。第三,轨迹质量可读,失败原因能被日志、状态和评测器定位。第四,reward 或 verifier 已经可信,能区分真实完成、部分完成和投机完成。第五,安全和沙箱机制就绪,错误工具调用、越权操作和长循环能被限制。第六,SFT 数据覆盖了主要任务类型和边界情况,RL 不是用来补最基础的指令跟随。若这些条件不满足,应先补示范数据、清洗轨迹、修工具协议和评测器;满足后再用 RL 优化策略偏好,并用 KL、成功率、成本、旧能力回归和 badcase 审计控制训练。
Agentic 项目中,SFT 主要让模型模仿高质量轨迹,学会任务分解、工具调用格式、观察结果读取和最终回答。RL 主要在已有基础能力上,根据任务成功、成本、时长、安全和偏好继续优化策略选择。
如果模型还经常生成非法 JSON、错误工具名、缺失参数、无法解析的 action 或无意义循环,就不适合进入 RL。此时 reward 再好也会被大量无效轨迹淹没,应优先用 SFT 数据和解码约束修协议。
RL 需要从采样轨迹中看到成功和失败的差异。如果 SFT 模型几乎从不完成任务,稀疏 reward 就很难提供有效学习信号。进入 RL 前至少要在核心任务集上有稳定的成功样本和可比较的失败样本。
Agentic RL 的 reward 要能判断任务是否真的完成,而不是只看模型自称完成。要有环境状态、工具日志、单测、检索证据、人工标注或 verifier 支撑,并能区分成功、部分成功、无效成功和安全违规。
Agentic RL 会大量 rollout,必须有沙箱、权限、超时、步数预算、成本预算、工具 allowlist 和日志追踪。否则训练会被不安全调用、长循环、无效工具和不可复现状态污染。
SFT 数据要覆盖主要任务类型、工具组合和边界情况。进入 RL 后要监控成功率、平均步数、工具错误率、成本、KL、旧能力回归和安全 badcase。RL 是提高策略,不是替代缺失的基础示范数据。
多数 rollout 都是失败轨迹,reward 太稀疏,训练容易变成噪声优化或学到投机策略。更合理的是补高质量示范、修工具协议和设计更稠密的中间反馈。
通常不够。最终答案可能自称完成但工具实际失败。应结合环境状态、工具执行日志、中间检查点、最终结果和安全约束综合判断。
常被忽略的是运行环境和评测器可靠性。没有可复现沙箱、日志和 verifier,RL 采样出来的 reward 很难可信,也难以排查失败。
保留 KL 或行为克隆约束,固定旧任务回归集,监控通用问答、工具协议、安全拒答和成本指标,必要时混合 SFT loss 或回滚 checkpoint。