构建 AI Agent 时，Memory 机制通常如何分层设计，短期上下文、长期记忆和检索注入分别解决什么问题？｜拼多多算法面经解析

60 秒回答模板

我会把 Agent 的 Memory 设计理解为分层状态系统，而不是单纯把历史对话塞进向量库。第一层是短期上下文，也就是当前对话窗口和当前任务状态，它解决的是“模型此刻正在做什么”的问题，包括用户最新意图、最近几轮对话、工具调用结果、临时约束和待完成步骤。它的优点是即时、准确、实现简单，缺点是受上下文长度和 token 成本限制，长任务中需要摘要、压缩和状态结构化。第二层是工作记忆或会话状态，主要保存一个任务过程中需要跨步骤保留的信息，例如计划、子任务进度、已验证结论、工具返回的关键事实、失败重试记录。它比短期上下文更结构化，通常可以放在状态对象、数据库或任务运行日志中，避免模型每一步都重新推理。这里的关键是区分临时状态和可长期保存的信息，任务结束后不一定都写入长期记忆。第三层是长期记忆，解决跨会话的持久化问题，例如用户偏好、项目背景、稳定事实、常用工作流、历史决策和可复用经验。长期记忆不能见什么都存，要有写入门槛：是否稳定、是否可复用、是否经过用户确认、是否涉及隐私、是否有过期时间。长期记忆通常需要结构化字段、来源、时间戳、置信度、作用范围和删除机制，否则很容易出现过期记忆、冲突记忆或跨用户污染。第四层是检索注入，也就是 RAG 或 Memory Retrieval。长期记忆和外部知识库并不会自动进入模型上下文，需要通过关键词、向量、混合检索、rerank、权限过滤和相关性阈值选出少量内容，再注入 prompt。它解决的是“需要时拿出来用”的问题，核心权衡是召回和精度：召回太低会遗漏关键记忆，召回太高会把噪声塞进上下文，引发幻觉、成本上升和任务偏航。实际设计中还要考虑写入、更新和遗忘机制。一个可靠的 Agent 应该先从对话或任务中抽取候选记忆，再做去重、冲突检测、权限检查和必要的人类确认；对于长期不用、明显过期或被用户否定的记忆要支持衰减、归档或删除。安全上要防止 prompt injection 把恶意内容写入记忆，也要避免把敏感信息跨会话暴露。评估时不能只看“有没有记住”。我会看记忆命中率、检索 precision/recall、任务成功率、因错误记忆导致的失败率、平均注入 token、延迟、用户纠错率和隐私事件。做实验时可以用 ablation 对比无记忆、只短期记忆、长期记忆加检索的效果。一个好的 Memory 设计应该让 Agent 更连续、更个性化、更少重复询问，同时不明显增加错误、成本和隐私风险。

考点 Memory 是分层状态系统

难度 真实面经题

回答目标 展示你理解 Agent Memory 的工程本质是分层状态管理、受控写入和精准检索注入，并能讲清每层的作用、权衡、风险和验证方法。

深入解析

短期上下文

保存当前轮次、最近对话、即时约束和工具返回，解决当前任务连贯性问题。主要限制是上下文窗口、token 成本和长任务遗忘，所以长链路里要配合摘要压缩和状态字段抽取。

工作记忆

把任务计划、阶段进度、关键中间结论和失败重试记录结构化保存，避免每一步都依赖模型重新从上下文里恢复状态。它更像任务运行态，只在当前目标内保持一致性，不应默认沉淀为永久记忆。

长期记忆

保存跨会话稳定可复用的信息，如用户偏好、项目背景、历史决策和常用流程。需要来源、时间、作用域、置信度和过期策略，否则过期事实、临时偏好和冲突信息会反复误导 Agent。

检索注入

通过关键词、向量、混合检索和 rerank 从长期记忆或知识库中选出相关内容，再有限注入上下文。它是使用记忆的机制，不等同于记忆本身，关键是相关性阈值、权限过滤和注入预算。

写入更新

记忆写入要经过抽取、去重、冲突检测、权限检查和必要确认。不能把所有对话都永久保存，否则噪声、隐私和过期信息会快速累积；用户明确否定或事实失效时还要能更新、归档或删除。

风险权衡

主要权衡包括召回与噪声、个性化与隐私、长期连续性与过期冲突、上下文充分性与成本延迟。设计要允许遗忘和纠错，并防止 prompt injection 把恶意内容写入长期状态。

评估验证

用任务成功率、记忆命中率、检索准确率、错误记忆率、用户纠错率、注入 token、延迟和消融实验来验证每层是否真的有效。还要单独统计因错误记忆导致的失败，避免只看记住了多少。

易错点

把 Agent Memory 简化成向量数据库，没有区分短期上下文、长期记忆和检索注入。
认为记得越多越好，忽略噪声、过期、冲突、隐私和成本。
只谈存储，不谈什么时候写入、如何更新、如何删除和如何纠错。
把 RAG 检索结果不加过滤地塞进 prompt，忽略相关性阈值和权限控制。
臆造拼多多内部 Agent 架构、业务系统或具体实现细节。

面试官追问

短期上下文和长期记忆最大的区别是什么？

短期上下文服务当前任务，通常直接进入 prompt，准确但受窗口限制。长期记忆跨会话保存稳定信息，需要检索、权限过滤和过期管理后才进入上下文。

为什么不能把所有历史对话都放进向量库？

因为历史对话里有大量临时信息、错误信息、隐私信息和过期信息。全部保存会降低检索精度，还可能把错误或敏感内容重新注入模型。

如何处理长期记忆冲突？

可以记录来源、时间戳、置信度和作用域，优先使用更新、更明确、用户确认过的信息。遇到高风险冲突时应向用户确认，而不是让模型自行猜测。

如何评价 Memory 是否有效？

可以构造需要跨轮或跨会话信息的任务集，对比无记忆、短期记忆、长期记忆加检索的任务成功率、纠错率、延迟和 token 成本。还要统计错误记忆导致的失败。

Memory 设计里有哪些安全风险？

常见风险包括 prompt injection 写入恶意记忆、跨用户数据污染、敏感信息长期保存、检索泄露和过期信息误导。需要权限隔离、写入审核、来源记录和删除机制。