Agent Memory 为什么不能简单塞进 Prompt，渐进式披露如何减少上下文污染？｜高频面试题解析

60 秒回答模板

Agent Memory 不能简单全部放进 Prompt，因为记忆里有过期信息、低相关信息、冲突信息、隐私信息和大量噪声，会消耗 token、干扰当前任务，甚至让模型把旧偏好当成当前指令。渐进式披露的思路是把记忆分层：当前会话状态直接可见，项目或用户长期记忆先通过检索候选进入摘要区，高风险或低置信记忆只在需要时进一步展开，原始证据只在模型需要核对时提供。流程上可以先根据当前任务抽取检索 query，召回少量候选记忆；再做相关性、新鲜度、权限和冲突过滤；然后把压缩后的记忆摘要放入上下文；当模型进入某个子任务或提出需要更多背景时，再披露更细颗粒度内容。评估要看任务成功、记忆命中、幻觉、冲突处理、token 成本和隐私泄露风险。

考点 不全量注入

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

全部记忆会污染上下文

长期记忆并不天然正确。它可能过期、重复、和当前目标冲突，也可能只对某些任务相关。全部加入 Prompt 会稀释当前任务，增加 token 成本，并让模型更难区分硬约束、历史偏好和背景参考。

记忆要分层存储

可以分为短期工作记忆、会话摘要、项目知识、用户偏好、历史决策和外部知识引用。不同层的更新频率、可信度、权限和进入上下文条件不同，不能用一个向量库检索结果直接替代记忆管理。

先召回摘要而不是原文

渐进式披露通常先给模型少量高相关记忆摘要，包含来源、时间、置信度和适用范围。只有当任务需要精确信息、发生冲突或模型请求核对时，才展开原始片段或更长历史。

冲突和过期需要显式处理

当前用户输入、最新工具结果和高优先级系统规则应高于历史记忆。记忆和当前上下文冲突时，应降权、标注冲突或询问确认，而不是让模型自行猜哪个更可信。

披露策略要随任务阶段变化

规划阶段需要目标、偏好和历史约束；执行阶段需要当前文件、工具结果和局部事实；复盘阶段需要历史决策和失败经验。不同阶段披露不同记忆，可以减少噪声并提高相关性。

指标要同时看收益和风险

应评估记忆命中率、任务成功率、澄清率、冲突解决率、幻觉率、token 成本、敏感记忆暴露率和用户纠正次数。记忆系统的目标不是使用更多记忆，而是只使用对当前任务有帮助的记忆。

易错点

认为记忆越多越好，把全部历史都放进 Prompt。
只用向量相似度决定记忆注入，忽略时间、权限、置信度和冲突。
把用户偏好当成永远正确的硬规则。
不区分短期工作状态、长期偏好和项目知识。
只评估记忆命中率，不看幻觉、污染、成本和隐私风险。
没有原始证据展开路径，摘要出错时无法核对。

面试官追问

记忆检索和 RAG 有什么区别？

RAG 通常检索外部知识，记忆还涉及用户偏好、历史状态、任务经验、权限和生命周期。记忆更强调个体化、更新和冲突管理。

如何判断一条记忆该不该进入上下文？

看它是否和当前任务相关、是否新鲜、是否有权限、是否可信、是否与当前输入冲突，以及是否足够重要到值得消耗 token。

记忆过期怎么办？

给记忆记录时间、来源和适用范围；低新鲜度记忆降权，和新输入冲突时优先新输入，并在必要时更新或废弃旧记忆。

渐进式披露会不会让模型缺信息？

会有这个风险，所以要支持模型按需请求更多背景，并通过任务失败样本检查是否因为披露过少造成遗漏。