如果项目要基于 Claude Code 这类现成 Agent 做领域适配，如何设计数据边界、工具接入、RAG、评测和监控？｜美团后端开发面经解析

60 秒回答模板

基于 Claude Code 这类现成 Agent 做领域适配，我会先定义边界，再接能力。第一步是数据边界：明确 Agent 能读哪些仓库、文档、工单、日志和配置，哪些是密钥、用户隐私、生产数据或跨租户数据，默认最小权限，并对上下文、RAG 索引和工具返回做脱敏与审计。第二步是工具接入：不要把所有私有系统直接暴露给模型，而是用 typed tool 封装成小而明确的动作，例如查工单、读指标、创建变更单、跑测试、生成 patch，每个工具有 schema、权限、超时、幂等、回滚和风险等级。第三步是领域 RAG：把规范、架构文档、接口契约、故障手册和历史案例做成可版本化知识库，检索结果带来源、时间、适用范围和权限标签，避免过期知识误导。第四步是工作流适配：把常见任务拆成计划、检索、工具调用、修改、验证、交付和人工审批节点，高风险动作必须停在审批。第五步是评测：构造真实领域任务集、离线回放工具、期望行为和禁用行为，评估任务完成率、误操作、越权、幻觉、测试通过率和人工介入率。最后是监控：记录 trace、工具调用、检索证据、diff、验证结果、成本延迟和失败原因，线上从只读建议开始灰度到低风险自动执行。

考点 先定领域边界

难度 真实面经题

回答目标 让读者能把现成 Agent 的领域适配讲成一个受控工程系统，覆盖数据边界、工具接入、RAG 知识治理、评测、监控、灰度和持续改进。

深入解析

适配目标

领域适配的目标不是让通用 Agent 知道更多口号，而是让它在特定业务域内更可靠地完成任务。需要先定义任务范围，例如代码修复、值班排障、文档问答、工单处理或配置检查；再定义成功标准、禁止动作和人工接管点。范围不清会导致工具越接越多但效果不可控。

数据边界

数据边界要覆盖读取、索引、缓存、日志和输出。Agent 能访问的仓库、文档、监控、工单和数据库必须按租户、项目、角色和任务授权；密钥、个人信息、生产敏感数据和跨域内容默认不可进入上下文。RAG 索引也要继承权限标签，不能因为被向量化就绕过原系统权限。

工具契约

工具接入应采用明确 schema、最小动作和宿主侧校验。每个工具说明输入输出、权限、超时、幂等性、失败码、风险等级和审计字段。读工具、写工具、生产工具要分级；写操作最好先生成计划或变更单，再由审批或验证门禁决定是否执行。

领域 RAG

领域知识库应包含架构原则、代码规范、接口文档、运行手册、常见故障、评审规则和历史事故复盘。切片时保留标题层级、版本、更新时间、适用服务和负责人等元数据。检索后还要重排和冲突检测，避免旧手册、废弃 API 或不适用服务被当成当前规则。

流程编排

现成 Agent 往往具备通用循环，但领域落地需要把任务流显式化：需求理解、上下文收集、计划、工具调用、产出、验证、审批、交付。不同任务可以有不同 policy，例如只读排障允许查日志和指标，代码修复允许改测试环境分支，生产变更必须生成单据并等待批准。

评测体系

评测要从真实任务抽样，构造可回放的输入、仓库快照、工具模拟和期望结果。指标包括任务完成率、正确修复率、测试通过率、工具调用成功率、越权尝试率、幻觉引用率、误写率、平均人工介入次数、成本和延迟。还要有 adversarial case，例如提示注入、过期文档和权限不足。

上线策略

建议从 read-only advisor 开始，让 Agent 只分析、总结和给建议；随后开放低风险 patch 生成和本地测试；再灰度到受限目录自动修改；最后才考虑带审批的生产工具。每一级都要有回滚、审计和阈值，例如失败率或越权率超过阈值自动降级。

监控审计

线上要记录完整 trace：用户输入、检索证据、提示版本、工具调用、返回摘要、diff、测试结果、审批决策、最终输出和用户反馈。监控维度包括成功率、失败类型、人工接管、工具错误、RAG 命中、stale evidence、token 成本、延迟和安全拦截。日志本身也要脱敏和分级保留。

持续改进

领域适配是闭环系统。失败案例要回流到评测集和知识库，工具 schema 过宽要收窄，常见多步任务可以沉淀为更稳定的工作流或技能。不要把每次失败都靠提示词补丁解决，能用权限、工具、测试和数据治理解决的应放在宿主系统。

易错点

把领域适配等同于写一段 system prompt，没有设计权限、工具和评测。
把受控文档全部塞进 RAG，忽略权限继承、脱敏、版本和过期问题。
直接暴露大而全的私有 API 给模型，缺少 typed tool、风险分级和宿主校验。
让模型决定是否能执行生产写操作，而不是由策略引擎和审批系统裁决。
评测只看 demo 成功案例，没有真实任务、失败样本和安全负例。
上线一步到全自动，缺少只读、低风险、灰度和回滚阶段。
监控只记录最终回答，不记录检索证据、工具调用、diff 和验证结果。
用提示词修补所有失败，不把高频流程沉淀为稳定工具或工作流。

面试官追问

如何防止 RAG 索引把没有权限的数据泄露给 Agent？

索引写入时要把租户、项目、角色、密级和数据状态作为权限标签保存，查询时先用当前用户和任务上下文做权限过滤，再进行向量召回或重排。检索结果返回前还要脱敏和审计。不能把所有文档混进一个无权限边界的索引，也不能只依赖模型自觉不引用。

工具 schema 设计过宽会带来什么风险，如何拆成更小的工具？

过宽工具会让模型组合出未预期操作，例如越权查询、批量写入或绕过审批，失败时也难定位责任。应按业务动作拆成小工具，例如查指标、读工单、生成变更单、运行测试、提交 patch，并为每个工具设置参数白名单、风险等级、幂等语义和宿主侧校验。

领域 Agent 的离线评测集应该如何从真实任务中构造？

可以从历史工单、代码修复、值班排障和文档问答中抽样，脱敏后保留输入、上下文快照、工具模拟返回、期望结果和禁止行为。评测集要包含成功路径和失败路径，覆盖权限不足、旧文档误导、工具异常、测试失败和需要人工审批的情况。

如果现成 Agent 的默认行为和企业审批流程冲突，应该在哪里加控制？

控制应放在宿主系统和工具层，而不是只写在提示词里。Agent 可以生成计划、变更说明和候选 patch，但真正调用生产写工具前，应由策略引擎检查风险、权限、审批状态和验证结果。这样即使模型试图越过流程，工具也会拒绝执行。

如何监控 Agent 是因为 RAG 证据错、工具错还是模型推理错导致失败？

需要完整 trace，把检索到的证据、重排分数、工具输入输出、模型中间计划、diff、测试结果和人工反馈关联起来。复盘时先看证据是否过期或无权限，再看工具是否返回错误或超时，最后判断模型是否误读证据或选择了错误动作。

从只读助手升级到自动执行，需要满足哪些量化门槛？

至少要在离线和灰度任务中证明任务完成率、测试通过率、越权拦截率、误操作率、人工回滚率、P95 延迟和成本都稳定达标。还需要覆盖高风险负例，确认工具审计、审批、回滚和降级可用。没有这些门槛，自动执行会把偶发错误放大成生产风险。