60 秒回答模板

Agent Memory 不能简单全部放进 Prompt,因为记忆里有过期信息、低相关信息、冲突信息、隐私信息和大量噪声,会消耗 token、干扰当前任务,甚至让模型把旧偏好当成当前指令。渐进式披露的思路是把记忆分层:当前会话状态直接可见,项目或用户长期记忆先通过检索候选进入摘要区,高风险或低置信记忆只在需要时进一步展开,原始证据只在模型需要核对时提供。流程上可以先根据当前任务抽取检索 query,召回少量候选记忆;再做相关性、新鲜度、权限和冲突过滤;然后把压缩后的记忆摘要放入上下文;当模型进入某个子任务或提出需要更多背景时,再披露更细颗粒度内容。评估要看任务成功、记忆命中、幻觉、冲突处理、token 成本和隐私泄露风险。

考点 不全量注入
难度 真实面经题
回答目标 讲清机制、训练与评估取舍

深入解析

01

全部记忆会污染上下文

长期记忆并不天然正确。它可能过期、重复、和当前目标冲突,也可能只对某些任务相关。全部加入 Prompt 会稀释当前任务,增加 token 成本,并让模型更难区分硬约束、历史偏好和背景参考。

02

记忆要分层存储

可以分为短期工作记忆、会话摘要、项目知识、用户偏好、历史决策和外部知识引用。不同层的更新频率、可信度、权限和进入上下文条件不同,不能用一个向量库检索结果直接替代记忆管理。

03

先召回摘要而不是原文

渐进式披露通常先给模型少量高相关记忆摘要,包含来源、时间、置信度和适用范围。只有当任务需要精确信息、发生冲突或模型请求核对时,才展开原始片段或更长历史。

04

冲突和过期需要显式处理

当前用户输入、最新工具结果和高优先级系统规则应高于历史记忆。记忆和当前上下文冲突时,应降权、标注冲突或询问确认,而不是让模型自行猜哪个更可信。

05

披露策略要随任务阶段变化

规划阶段需要目标、偏好和历史约束;执行阶段需要当前文件、工具结果和局部事实;复盘阶段需要历史决策和失败经验。不同阶段披露不同记忆,可以减少噪声并提高相关性。

06

指标要同时看收益和风险

应评估记忆命中率、任务成功率、澄清率、冲突解决率、幻觉率、token 成本、敏感记忆暴露率和用户纠正次数。记忆系统的目标不是使用更多记忆,而是只使用对当前任务有帮助的记忆。

易错点

  • 认为记忆越多越好,把全部历史都放进 Prompt。
  • 只用向量相似度决定记忆注入,忽略时间、权限、置信度和冲突。
  • 把用户偏好当成永远正确的硬规则。
  • 不区分短期工作状态、长期偏好和项目知识。
  • 只评估记忆命中率,不看幻觉、污染、成本和隐私风险。
  • 没有原始证据展开路径,摘要出错时无法核对。

面试官追问

记忆检索和 RAG 有什么区别?

RAG 通常检索外部知识,记忆还涉及用户偏好、历史状态、任务经验、权限和生命周期。记忆更强调个体化、更新和冲突管理。

如何判断一条记忆该不该进入上下文?

看它是否和当前任务相关、是否新鲜、是否有权限、是否可信、是否与当前输入冲突,以及是否足够重要到值得消耗 token。

记忆过期怎么办?

给记忆记录时间、来源和适用范围;低新鲜度记忆降权,和新输入冲突时优先新输入,并在必要时更新或废弃旧记忆。

渐进式披露会不会让模型缺信息?

会有这个风险,所以要支持模型按需请求更多背景,并通过任务失败样本检查是否因为披露过少造成遗漏。