Agentic RL 项目中，如何判断 SFT 阶段已经可以进入 RL 后训练？｜字节跳动算法面经解析

60 秒回答模板

Agentic RL 里不能一上来就做 RL。SFT 阶段的目标是让模型学会任务格式、工具调用协议、基本规划、异常处理和可读轨迹；RL 阶段才用 reward 强化更高成功率、更低成本、更好策略选择。判断能否从 SFT 进入 RL，我会看六个 gate。第一，模型能稳定生成合法 action 和 tool schema，不频繁格式错、参数错或死循环。第二，在代表性任务上已有非零且足够稳定的基础成功率，否则稀疏 reward 下 RL 很难学。第三，轨迹质量可读，失败原因能被日志、状态和评测器定位。第四，reward 或 verifier 已经可信，能区分真实完成、部分完成和投机完成。第五，安全和沙箱机制就绪，错误工具调用、越权操作和长循环能被限制。第六，SFT 数据覆盖了主要任务类型和边界情况，RL 不是用来补最基础的指令跟随。若这些条件不满足，应先补示范数据、清洗轨迹、修工具协议和评测器；满足后再用 RL 优化策略偏好，并用 KL、成功率、成本、旧能力回归和 badcase 审计控制训练。

考点 SFT 打底

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

先区分 SFT 和 RL 的职责

Agentic 项目中，SFT 主要让模型模仿高质量轨迹，学会任务分解、工具调用格式、观察结果读取和最终回答。RL 主要在已有基础能力上，根据任务成功、成本、时长、安全和偏好继续优化策略选择。

第一个 gate 是协议合法

如果模型还经常生成非法 JSON、错误工具名、缺失参数、无法解析的 action 或无意义循环，就不适合进入 RL。此时 reward 再好也会被大量无效轨迹淹没，应优先用 SFT 数据和解码约束修协议。

第二个 gate 是基础成功率

RL 需要从采样轨迹中看到成功和失败的差异。如果 SFT 模型几乎从不完成任务，稀疏 reward 就很难提供有效学习信号。进入 RL 前至少要在核心任务集上有稳定的成功样本和可比较的失败样本。

第三个 gate 是 reward 可信

Agentic RL 的 reward 要能判断任务是否真的完成，而不是只看模型自称完成。要有环境状态、工具日志、单测、检索证据、人工标注或 verifier 支撑，并能区分成功、部分成功、无效成功和安全违规。

第四个 gate 是运行环境可控

Agentic RL 会大量 rollout，必须有沙箱、权限、超时、步数预算、成本预算、工具 allowlist 和日志追踪。否则训练会被不安全调用、长循环、无效工具和不可复现状态污染。

最后看覆盖和回归

SFT 数据要覆盖主要任务类型、工具组合和边界情况。进入 RL 后要监控成功率、平均步数、工具错误率、成本、KL、旧能力回归和安全 badcase。RL 是提高策略，不是替代缺失的基础示范数据。

易错点

把 RL 当成补基础能力的万能手段，忽略 SFT 应先学会任务格式和工具协议。
没有基础成功率就进入稀疏 reward 训练，导致采样几乎全是无效失败。
只用模型最终文本判断任务成功，不核对工具日志和环境状态。
没有沙箱、步数、超时和成本预算，rollout 污染训练数据甚至带来安全风险。
只看平均成功率，不按任务类型、工具类型和失败原因分层分析。
进入 RL 后不做旧能力回归，导致模型变得会做训练任务但通用能力下降。

面试官追问

如果 SFT 成功率很低，直接 RL 会怎样？

多数 rollout 都是失败轨迹，reward 太稀疏，训练容易变成噪声优化或学到投机策略。更合理的是补高质量示范、修工具协议和设计更稠密的中间反馈。

Agentic RL 的 reward 可以只看最终答案吗？

通常不够。最终答案可能自称完成但工具实际失败。应结合环境状态、工具执行日志、中间检查点、最终结果和安全约束综合判断。

SFT 到 RL 的 gate 中最容易被忽略的是什么？

常被忽略的是运行环境和评测器可靠性。没有可复现沙箱、日志和 verifier，RL 采样出来的 reward 很难可信，也难以排查失败。

进入 RL 后如何防止旧能力退化？

保留 KL 或行为克隆约束，固定旧任务回归集，监控通用问答、工具协议、安全拒答和成本指标，必要时混合 SFT loss 或回滚 checkpoint。