AI 平台接口上线前，如何验证模型降级、Prompt 版本追踪、配置回滚和缓存一致性？｜Shopee 后端开发面经解析

60 秒回答模板

AI 平台接口上线前，我会按发布门禁来检查，而不是只测接口能不能调通。第一是模型调用降级：明确主模型、备用模型、规则兜底和人工兜底的触发条件，验证超时、限流、错误码、质量异常、成本异常和区域不可用时能切换；同时确认降级后的输入输出 schema、错误语义、安全策略和用户提示保持兼容。第二是 Prompt 版本追踪：每次请求都要记录 prompt template id、版本、hash、变量、模型版本、检索知识库版本、配置版本和实验分组，确保线上 badcase 能复现，回滚时知道回到哪一个版本。第三是配置和发布安全：模型路由、temperature、max tokens、超时、重试、工具开关、风控阈值和缓存策略要通过配置中心或发布系统灰度，支持一键回滚，并有变更审批和审计。第四是缓存一致性：缓存 key 不能只按用户问题生成，还要包含 prompt 版本、模型或策略版本、知识库版本、租户、权限和语言等影响答案的维度，避免旧答案污染新版本。最后要做压测、异常注入、canary、监控告警和回滚演练，指标看成功率、超时率、降级率、版本命中分布、badcase 可复现率、缓存污染率、p95/p99 延迟和用户可感知错误。

考点 模型降级链路

难度 真实面经题

回答目标 让候选人能把 AI 平台接口上线回答成可靠性发布门禁：模型降级、版本追踪、配置回滚、缓存一致性和灰度观测都要可验证。

深入解析

上线前先定义发布门禁

AI 平台接口除了普通 API 的连通性、鉴权、限流和日志，还要关注模型依赖、prompt 版本、生成质量和成本波动。上线门禁应包括功能正确性、质量基线、安全合规、降级能力、可观测性、回滚路径和事故演练。只有接口返回 200，并不能说明 AI 能稳定上线。

模型降级要验证兼容性

模型降级不是简单把 model 字段换成备用模型。要确认备用模型支持同样的上下文长度、工具调用格式、结构化输出、流式协议、安全策略和错误语义；如果备用模型能力较弱，还要定义功能降级，例如从自动执行退回建议模式、从复杂推理退回模板回答或转人工。

Prompt 版本必须能追踪和复现

AI badcase 经常和 prompt、变量、模型、检索语料、配置和实验分组共同相关。每次请求要记录 template id、版本号、hash、变量摘要、模型版本、知识库版本、路由策略和 trace id。这样线上出现错误答案时，才能复现当时的输入环境，并判断应该回滚 prompt、修正变量还是调整模型路由。

配置回滚要覆盖模型和策略

AI 平台常见配置包括模型路由、温度、最大输出、超时、重试、熔断阈值、工具开关、prompt 版本、知识库版本和缓存 TTL。这些配置要支持灰度、审批、审计和回滚；回滚不应依赖重新发版。测试时要模拟错误配置发布、半量灰度、回滚后新旧请求并存，确认系统行为可控。

缓存一致性要把版本写进 key

AI 接口如果做结果缓存、检索缓存或 prompt 编译缓存，必须明确哪些维度影响结果。用户问题相同但 prompt 版本、模型版本、知识库版本、权限、租户、语言或实验组不同，答案可能不同。缓存 key、失效策略和回源逻辑如果没覆盖这些维度，就会出现脏读、串租户或新版本看起来不生效。

灰度观测和演练是上线前最后一关

上线前应做超时、限流、模型错误、流式中断、缓存污染、配置回滚和备用模型切换演练。灰度期间按版本和实验组观察成功率、超时率、降级率、错误码、质量抽检、成本、p95/p99 延迟和用户反馈。只有能发现问题、定位版本、快速降级和回滚，AI 平台接口才具备线上承压能力。

易错点

把 AI 平台接口上线等同于普通 HTTP 接口冒烟，只测状态码和字段，不测模型依赖和质量风险。
认为模型降级就是切备用模型，没有验证上下文长度、结构化输出、工具调用、流式协议和安全策略兼容。
Prompt 只在代码仓库里改，没有请求级版本、hash、变量和实验组记录，线上 badcase 无法复现。
配置回滚依赖重新发版，模型路由、超时、重试、风控阈值和缓存策略没有灰度和审计。
缓存 key 只按问题文本设计，忽略 prompt、模型、知识库、租户、权限和实验组导致脏读或串数据。
编造 Shopee 内部 AI 平台架构、模型名称或事故指标，而来源只支持模型可降级和 prompt 可追踪等上线关注点。

面试官追问

模型降级时最容易忽略什么？

最容易忽略输出兼容性。备用模型可能不稳定支持 JSON schema、工具调用、流式格式或同样的安全拒答策略，导致降级后接口虽然返回了内容，但下游解析或业务语义失败。

Prompt 版本追踪为什么不能只记录版本号？

版本号不一定能还原实际请求。还需要记录变量、模板 hash、模型版本、知识库版本、配置、实验组和 trace id，因为同一个模板在不同变量和检索结果下会表现不同。

AI 接口的缓存 key 应该包含哪些维度？

至少包含规范化输入、prompt 版本、模型或路由版本、知识库版本、租户、用户权限、语言、实验组和关键配置。凡是会改变答案或可见范围的维度，都不应被省略。

如果上线后发现质量下降但错误率没升，怎么处理？

先按版本和实验组切分质量抽检、用户反馈、badcase 类型和模型路由，确认是否由 prompt、模型、知识库或配置引起。必要时先回滚或降级，再做离线复现和修正，而不是只盯接口错误率。

发布前要做哪些故障注入？

可以注入模型超时、限流、5xx、流式中断、备用模型不可用、配置错误、缓存旧值、知识库版本不一致和回滚中请求并发，验证熔断、降级、告警和数据一致性。