真实面经题目 · 原创解析
多模态 Agentic RL 中用 VERL 做强化学习时,如何判断训练进度和收敛质量?
这题考多模态 Agentic RL 训练过程的可观测和收敛判断,回答要覆盖奖励曲线、成功率分层、KL/熵、rollout 质量、视觉 grounding 和回归评测。
用 VERL 做多模态 Agentic RL 时,我不会只看训练 reward 是否上涨,而是把训练进度拆成可优化性、行为质量和泛化稳定性三类信号。第一类是训练曲线:平均 reward、分位数 reward、任务成功率、无效轨迹率、长度和成本是否朝目标改善,同时注意曲线是否震荡、崩塌或只在少数任务上涨。第二类是策略稳定性:看 KL 距离、熵、clip 比例、梯度和优势分布等诊断信号,判断模型是否偏离初始策略太快、探索是否消失或更新是否过猛。第三类是 rollout 质量:抽样检查 Agent 是否正确解析视觉输入、选择工具、执行多步计划、引用证据、在失败后恢复,而不是靠模板化回答刷 reward。多模态场景还要单独做 grounding 检查,比如视觉区域、OCR、表格、图像细节和文本推理是否一致。最后用 held-out 任务、分场景成功率、旧能力回归测试和人工 badcase 复核判断是否真的收敛。VERL 只是训练和 rollout 框架,判断质量仍然要靠任务定义、奖励设计和评测体系。
强化学习训练中的 reward 上涨只是一个信号,不等于模型真正更会做任务。多模态 Agentic RL 还涉及视觉理解、工具调用、计划执行和多步反馈。面试回答要先说明进度判断必须结合曲线、轨迹和离线评测。
可以观察平均 reward、成功率、分位数 reward、任务完成步数、无效动作率、工具失败率和成本。只看总体平均容易被简单样本掩盖,应该按任务类型、视觉输入类型、工具类型、难度和长度分层,判断是否全面提升。
Agentic RL 很容易出现更新过猛、探索消失或策略偏移。KL 可以反映新策略偏离参考策略的程度,熵能反映输出和动作选择是否过早变得单一,clip、梯度和优势分布能帮助发现训练是否不稳定。这里不需要背公式,重点是用这些信号判断训练有没有失控。
要抽样看完整轨迹:模型是否正确解析视觉输入,是否选择了合适工具,是否能根据观察结果调整计划,是否出现重复调用、无意义搜索、伪造证据或提前结束。多步 Agent 的收敛质量要看行为链,而不是只看最终文本。
多模态任务的 reward 可能来自最终答案,但错误可能发生在视觉 grounding 阶段。需要检查图像区域、文字识别、表格结构、物体属性、空间关系和文本推理是否一致。否则模型可能语言表达更像正确答案,却没有真正使用视觉证据。
收敛判断要有 held-out 任务、旧能力回归集、人工复核和 badcase 复测。只有训练曲线改善、分层成功率提升、策略稳定、rollout 行为合理、旧能力不明显退化,才可以认为训练质量较好。
可能是奖励设计被策略利用,或者 reward model 没覆盖行为质量。需要检查无效工具调用、证据伪造、过短回答、模板化路径和分层任务表现。
KL 太大通常说明新策略偏离参考策略过快,可能损伤原有能力;太小可能说明更新太保守,学不到新行为。要结合成功率和轨迹质量判断。
因为最终答案正确不代表模型真的理解了图片。它可能靠语言先验猜对。grounding 检查能发现视觉区域、OCR、表格结构和空间关系是否被正确使用。
看策略是否通过重复调用工具、规避困难样本、输出固定模板、伪造引用或过度迎合 reward model 得分,而不是完成真实任务。
可以把它理解成支持 rollout、奖励计算和策略优化的训练框架。框架本身不替代任务指标、奖励设计和人工质量检查。