DeepResearch 类 Agent 如何和 RL 后训练结合，整体训练流程是什么？｜美团算法面经解析

60 秒回答模板

DeepResearch 类 Agent 和 RL 后训练结合时，可以把它看成一个会规划、搜索、阅读、调用工具、整理证据并生成报告的多步策略。整体流程先从任务定义开始：准备研究问题、可用工具、搜索或浏览环境、停止条件和输出标准。第二步采集轨迹，让模型在任务中生成计划、查询、点击或检索、阅读证据、记录中间结论、修订计划并产出最终答案。第三步设计反馈信号，可以来自最终答案质量、事实正确性、引用证据、覆盖度、结构化程度、任务完成、人工偏好、工具成本和安全规则。第四步做策略优化，用这些结果或偏好信号让模型更倾向于高质量轨迹，同时用 KL、长度、成本和工具调用约束防止策略偏移。第五步离线评测和回归，验证 held-out 研究任务上的事实性、引用可靠性、覆盖率、冗余搜索、成本、延迟和旧能力。回答时要强调 RL 优化的不是一个单轮答案，而是研究过程中的动作序列；奖励设计要避免只奖励长报告或多引用，必须检查证据是否支持结论。

考点 轨迹而非单答

难度 真实面经题

回答目标 讲清 DeepResearch RL 流程

深入解析

先定义 DeepResearch Agent 的动作空间

DeepResearch 类 Agent 不是普通问答模型，它的动作包括拆解问题、制定研究计划、搜索或检索、打开资料、阅读摘录、记录证据、反思缺口、继续探索和生成报告。RL 后训练首先要把这些动作和状态记录成可学习的轨迹。

轨迹采集要保留过程证据

训练数据不能只有最终答案，还应记录每一步的查询、工具返回、阅读内容、引用来源、子问题状态、失败尝试和最终报告。这样才能评估策略是否真的通过有效研究得出结论，而不是凭语言先验直接生成。

奖励设计覆盖结果和过程

奖励可以来自最终答案正确性、覆盖度、引用质量、证据支持程度、结构清晰度、任务完成率和人类偏好，也可以加入过程约束，比如无效搜索、重复查询、引用不支持结论、成本过高或违反安全边界要被惩罚。只奖励最终报告长度会诱导错误行为。

RL 优化的是多步策略

后训练目标是让模型在研究任务中更会选择下一步动作：什么时候搜索，搜什么关键词，读哪些证据，何时停止，如何综合。策略优化可以基于结果奖励、偏好数据或 verifier 信号，但必须约束 KL、工具成本、上下文长度和输出格式，避免过度偏离基础能力。

评测要覆盖事实、证据和成本

DeepResearch 评测不能只看答案是否流畅。要看事实正确性、引用是否真实且支持结论、关键维度覆盖率、矛盾信息处理、搜索冗余、工具失败恢复、延迟和成本。还要有旧任务回归，防止 RL 后模型在普通问答或安全边界上退化。

上线前防止奖励投机

研究型 Agent 很容易学会堆引用、拉长回答、重复搜索或选择容易得分的路径。需要人工抽检、引用核验、对抗任务、成本上限、停止规则和 badcase 回放。只有过程合理且证据支撑结论，RL 提升才有实际价值。

易错点

把 DeepResearch 答成普通 RAG 或搜索问答，没有讲多步 Agent 轨迹。
只讲最终答案奖励，不评价搜索、阅读、引用和停止过程。
奖励设计只鼓励长报告或多引用，容易诱导无效研究。
没有成本、延迟、工具失败和安全约束，流程无法落地。
不做 held-out 研究任务和旧能力回归，无法判断 RL 后训练是否真的变好。

面试官追问

DeepResearch Agent 的 RL 和普通问答 RL 有什么不同？

普通问答多关注最终回答，DeepResearch 还要优化搜索、阅读、证据选择、计划修订和停止时机。训练对象是一条多步研究轨迹。

奖励中为什么要加入工具成本？

否则模型可能通过大量重复搜索或无效浏览提高覆盖感，造成延迟和成本不可控。成本约束能促使策略学会必要且有效的探索。

如何判断引用真的支持结论？

可以用人工核验、NLI/verifier、引用片段和结论的匹配检查，以及抽样复核。关键是不能只检查有没有引用，还要检查引用和观点是否一致。

什么时候应该停止研究并生成答案？

可以根据子问题覆盖、证据充分性、边际收益、时间成本、工具预算和不确定性判断。停止策略本身也可以作为轨迹质量的一部分评估。

DeepResearch RL 容易出现哪些奖励投机？

常见问题包括堆砌引用、拉长报告、重复搜索、选择易答资料、忽略反例、引用不支撑结论，以及为了格式得分牺牲事实性。