真实面经题目 · 原创解析
多源检索 Agent 如何判断证据已足够生成结论,在文献、病历和网页结果冲突时划分可信优先级并排序筛选,同时用停止条件避免死循环?
这题考多源检索 Agent 的证据治理能力。高质量回答要说明如何拆解问题、判断证据是否足够、处理文献/病历/网页冲突、排序筛选来源,并用明确停止条件避免检索和推理循环失控。
真实面经题目 · 原创解析
这题考多源检索 Agent 的证据治理能力。高质量回答要说明如何拆解问题、判断证据是否足够、处理文献/病历/网页冲突、排序筛选来源,并用明确停止条件避免检索和推理循环失控。
我会先把多源检索 Agent 的任务定义为带证据的结论生成,而不是搜索越多越好。Agent 应先把用户问题拆成若干 claim,例如事实判断、患者个体事实、医学常识、时间线、因果关系或操作建议;然后为每个 claim 记录证据来源、时间、可信等级、支持或反驳关系和缺口。证据足够的标准不是数量,而是关键 claim 已被高可信来源覆盖、来源之间没有未解释的重大冲突、证据足够新且与问题场景匹配、剩余不确定性可以被明确表达。 当文献、病历和网页结果冲突时,不能简单投票。对于患者个体事实,病历、检查报告和医嘱通常是更直接的事实源;对于医学规律、疗法有效性和通用知识,临床指南、系统综述、高质量论文通常优先于普通网页;网页只适合补充背景、机构说明或时效信息,并需要看域名、作者、日期和引用来源。排序筛选时要综合相关性、权威性、时效性、原始性、可验证性和多样性。为避免死循环,Agent 需要记录已检索 query、已读来源、重复证据和边际新增信息,设置最大迭代、最大工具调用、无新增证据停止、冲突无法解决时停止并输出不确定性,高风险医疗结论还应转人工或提示专业复核。
用户问题往往混合多个判断,例如个体病情事实、医学知识、治疗建议和时间线。Agent 应把问题拆成可验证 claim,并为每个 claim 标注需要什么证据。这样才能判断缺的是病历事实、权威文献、最新指南还是网页背景,而不是盲目继续搜索。
证据充分可以用四个条件判断:关键 claim 已覆盖,来源质量达到要求,支持证据与反证冲突可解释,结论的不确定性可以被清楚表达。如果某个核心 claim 只有低质量网页支持,或者高可信来源互相冲突且无法解释,就不应强行生成确定结论。
病历适合回答患者个体发生了什么,例如检查值、诊断记录、用药时间和医嘱;文献和指南适合回答医学共识、风险因素和治疗效果;网页适合补充政策、机构页面或新闻时效。个体事实冲突时优先病历原始记录,通用医学结论冲突时优先指南、系统综述和高质量研究。
冲突不能被平均掉。Agent 应记录每条证据支持什么、反驳什么、适用人群、时间、研究质量和限制条件。常见冲突可能来自样本人群不同、时间版本不同、诊断阶段不同、网页二次转述错误或病历信息过期。无法消解时要输出目前证据不一致,而不是编造统一解释。
检索排序不应只看关键词命中。应优先原始来源、权威机构、同行评审、发布日期、引用质量、与 claim 的直接相关性、是否有完整上下文,以及是否提供可验证出处。还要去重、聚类相似来源,保留支持和反对证据,避免搜索结果只来自同一类页面。
Agent 要维护检索状态,包括已用 query、已读文档、提取过的 claim、冲突列表、证据缺口和工具调用次数。停止条件可以是达到证据充分阈值、连续多轮没有新增高质量证据、重复来源过多、达到预算上限、核心冲突无法解决或任务超出权限。停止后应给出结论、依据和未决不确定性。
可以按 claim 覆盖率、来源可信度、证据直接性、时效性、一致性和反证强度打分。最终不只看总分,还要看是否存在未覆盖的关键 claim 或高可信反证。
要看冲突对象。如果是患者是否做过检查、某天用过什么药,病历是个体事实源;如果是某治疗是否推荐,指南或高质量文献更权威。最终还要说明病历记录是否过期、是否完整,并建议专业复核。
网页可以用于背景说明、政策时效、机构公开信息或辅助发现线索,但要优先官方页面、权威机构和带出处的内容。普通网页不能替代病历原始记录或高质量医学证据。
Agent 应识别连续重复结果、低质量结果和无新增 claim,触发停止条件。此时输出已有证据、缺口和无法确定的原因,而不是换同义词无限检索。