多模态 Agentic RL 中用 VERL 做强化学习时，如何判断训练进度和收敛质量？｜高频面试题解析

60 秒回答模板

用 VERL 做多模态 Agentic RL 时，我不会只看训练 reward 是否上涨，而是把训练进度拆成可优化性、行为质量和泛化稳定性三类信号。第一类是训练曲线：平均 reward、分位数 reward、任务成功率、无效轨迹率、长度和成本是否朝目标改善，同时注意曲线是否震荡、崩塌或只在少数任务上涨。第二类是策略稳定性：看 KL 距离、熵、clip 比例、梯度和优势分布等诊断信号，判断模型是否偏离初始策略太快、探索是否消失或更新是否过猛。第三类是 rollout 质量：抽样检查 Agent 是否正确解析视觉输入、选择工具、执行多步计划、引用证据、在失败后恢复，而不是靠模板化回答刷 reward。多模态场景还要单独做 grounding 检查，比如视觉区域、OCR、表格、图像细节和文本推理是否一致。最后用 held-out 任务、分场景成功率、旧能力回归测试和人工 badcase 复核判断是否真的收敛。VERL 只是训练和 rollout 框架，判断质量仍然要靠任务定义、奖励设计和评测体系。

考点 曲线不等于收敛

难度 真实面经题

回答目标 判断 RL 训练收敛质量

深入解析

先区分训练进度和真实能力

强化学习训练中的 reward 上涨只是一个信号，不等于模型真正更会做任务。多模态 Agentic RL 还涉及视觉理解、工具调用、计划执行和多步反馈。面试回答要先说明进度判断必须结合曲线、轨迹和离线评测。

奖励曲线要分层看

可以观察平均 reward、成功率、分位数 reward、任务完成步数、无效动作率、工具失败率和成本。只看总体平均容易被简单样本掩盖，应该按任务类型、视觉输入类型、工具类型、难度和长度分层，判断是否全面提升。

KL、熵和更新幅度看稳定性

Agentic RL 很容易出现更新过猛、探索消失或策略偏移。KL 可以反映新策略偏离参考策略的程度，熵能反映输出和动作选择是否过早变得单一，clip、梯度和优势分布能帮助发现训练是否不稳定。这里不需要背公式，重点是用这些信号判断训练有没有失控。

rollout 质量比单条分数更重要

要抽样看完整轨迹：模型是否正确解析视觉输入，是否选择了合适工具，是否能根据观察结果调整计划，是否出现重复调用、无意义搜索、伪造证据或提前结束。多步 Agent 的收敛质量要看行为链，而不是只看最终文本。

多模态 grounding 要单独验证

多模态任务的 reward 可能来自最终答案，但错误可能发生在视觉 grounding 阶段。需要检查图像区域、文字识别、表格结构、物体属性、空间关系和文本推理是否一致。否则模型可能语言表达更像正确答案，却没有真正使用视觉证据。

用回归集判断是否可上线

收敛判断要有 held-out 任务、旧能力回归集、人工复核和 badcase 复测。只有训练曲线改善、分层成功率提升、策略稳定、rollout 行为合理、旧能力不明显退化，才可以认为训练质量较好。

易错点

只看平均 reward 上升，就判断训练已经收敛。
不按任务类型、视觉输入和工具调用分层分析，掩盖局部退化。
忽略 KL、熵和更新幅度，等模型能力崩了才发现训练不稳定。
只评估最终答案文本，不检查多步 rollout 和工具调用行为。
没有多模态 grounding 检查，无法判断模型是否真正使用视觉信息。
把 VERL 描述成唯一可用框架，偏离训练质量判断本身。

面试官追问

reward 上涨但人工看轨迹变差，怎么解释？

可能是奖励设计被策略利用，或者 reward model 没覆盖行为质量。需要检查无效工具调用、证据伪造、过短回答、模板化路径和分层任务表现。

KL 太大或太小分别意味着什么？

KL 太大通常说明新策略偏离参考策略过快，可能损伤原有能力；太小可能说明更新太保守，学不到新行为。要结合成功率和轨迹质量判断。

多模态 Agentic RL 为什么要看 grounding？

因为最终答案正确不代表模型真的理解了图片。它可能靠语言先验猜对。grounding 检查能发现视觉区域、OCR、表格结构和空间关系是否被正确使用。

如何判断训练出现 reward hacking？

看策略是否通过重复调用工具、规避困难样本、输出固定模板、伪造引用或过度迎合 reward model 得分，而不是完成真实任务。

VERL 在这里的角色是什么？

可以把它理解成支持 rollout、奖励计算和策略优化的训练框架。框架本身不替代任务指标、奖励设计和人工质量检查。