真实面经题目 · 原创解析
DeepResearch 类 Agent 如何和 RL 后训练结合,整体训练流程是什么?
这题考 DeepResearch 类 Agent 的 RL 后训练流程,重点是轨迹采集、工具动作、奖励设计、偏好或结果信号、策略优化、评测和防止研究型 Agent 走偏。
真实面经题目 · 原创解析
这题考 DeepResearch 类 Agent 的 RL 后训练流程,重点是轨迹采集、工具动作、奖励设计、偏好或结果信号、策略优化、评测和防止研究型 Agent 走偏。
DeepResearch 类 Agent 和 RL 后训练结合时,可以把它看成一个会规划、搜索、阅读、调用工具、整理证据并生成报告的多步策略。整体流程先从任务定义开始:准备研究问题、可用工具、搜索或浏览环境、停止条件和输出标准。第二步采集轨迹,让模型在任务中生成计划、查询、点击或检索、阅读证据、记录中间结论、修订计划并产出最终答案。第三步设计反馈信号,可以来自最终答案质量、事实正确性、引用证据、覆盖度、结构化程度、任务完成、人工偏好、工具成本和安全规则。第四步做策略优化,用这些结果或偏好信号让模型更倾向于高质量轨迹,同时用 KL、长度、成本和工具调用约束防止策略偏移。第五步离线评测和回归,验证 held-out 研究任务上的事实性、引用可靠性、覆盖率、冗余搜索、成本、延迟和旧能力。回答时要强调 RL 优化的不是一个单轮答案,而是研究过程中的动作序列;奖励设计要避免只奖励长报告或多引用,必须检查证据是否支持结论。
DeepResearch 类 Agent 不是普通问答模型,它的动作包括拆解问题、制定研究计划、搜索或检索、打开资料、阅读摘录、记录证据、反思缺口、继续探索和生成报告。RL 后训练首先要把这些动作和状态记录成可学习的轨迹。
训练数据不能只有最终答案,还应记录每一步的查询、工具返回、阅读内容、引用来源、子问题状态、失败尝试和最终报告。这样才能评估策略是否真的通过有效研究得出结论,而不是凭语言先验直接生成。
奖励可以来自最终答案正确性、覆盖度、引用质量、证据支持程度、结构清晰度、任务完成率和人类偏好,也可以加入过程约束,比如无效搜索、重复查询、引用不支持结论、成本过高或违反安全边界要被惩罚。只奖励最终报告长度会诱导错误行为。
后训练目标是让模型在研究任务中更会选择下一步动作:什么时候搜索,搜什么关键词,读哪些证据,何时停止,如何综合。策略优化可以基于结果奖励、偏好数据或 verifier 信号,但必须约束 KL、工具成本、上下文长度和输出格式,避免过度偏离基础能力。
DeepResearch 评测不能只看答案是否流畅。要看事实正确性、引用是否真实且支持结论、关键维度覆盖率、矛盾信息处理、搜索冗余、工具失败恢复、延迟和成本。还要有旧任务回归,防止 RL 后模型在普通问答或安全边界上退化。
研究型 Agent 很容易学会堆引用、拉长回答、重复搜索或选择容易得分的路径。需要人工抽检、引用核验、对抗任务、成本上限、停止规则和 badcase 回放。只有过程合理且证据支撑结论,RL 提升才有实际价值。
普通问答多关注最终回答,DeepResearch 还要优化搜索、阅读、证据选择、计划修订和停止时机。训练对象是一条多步研究轨迹。
否则模型可能通过大量重复搜索或无效浏览提高覆盖感,造成延迟和成本不可控。成本约束能促使策略学会必要且有效的探索。
可以用人工核验、NLI/verifier、引用片段和结论的匹配检查,以及抽样复核。关键是不能只检查有没有引用,还要检查引用和观点是否一致。
可以根据子问题覆盖、证据充分性、边际收益、时间成本、工具预算和不确定性判断。停止策略本身也可以作为轨迹质量的一部分评估。
常见问题包括堆砌引用、拉长报告、重复搜索、选择易答资料、忽略反例、引用不支撑结论,以及为了格式得分牺牲事实性。