客服 Agent 从通用 Agent 拆成 Expert Agent 后，如何设计 A/B 测试与指标归因，判断提升来自路由、Prompt 还是 Workflow，并监控是否引入泛化损失？｜字节跳动 AI 应用开发面经解析

60 秒回答模板

通用 Agent 拆成 Expert Agent 后，A/B 测试不能只看总体解决率上涨。要把收益拆到路由、检索、工具执行、转人工、回答质量和用户体验各环节，否则无法判断提升来自专家拆分、知识更新、Prompt 改动还是流量结构变化。先定义实验单元：按用户、会话或问题单元随机分流，并保证业务线、问题类型、用户等级和时段分布可比。客服场景尤其要防止同一用户跨组造成体验和归因污染。指标分层归因：顶层看自助解决率、满意度、投诉率和人工成本；中间层看路由命中率、证据覆盖率、工具成功率、转人工率；底层看误答、拒答、重复追问和延迟。幻觉要单独标注：将幻觉拆成无证据回答、证据误读、越权承诺、工具结果编造和事实过期。通过人工抽检、规则校验和 badcase 归因判断新架构是否真的降低幻觉。泛化损失要压测：Expert 架构容易在长尾问题、跨域问题和混合意图上失效。需要保留长尾测试集、跨域样本和回退策略，监控无命中、错路由和多轮未解决比例。结论要能指导迭代：如果收益主要来自路由准确，应优化分类和候选召回；如果来自工具执行，应强化权限和参数校验；如果长尾下降明显，应调整 Expert 粒度或增加 fallback。最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词，要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 随机分流

难度 真实面经题

回答目标 展示你能用实验和指标判断 Expert Agent 架构是否真的创造价值，并识别副作用。

深入解析

先定义实验单元

按用户、会话或问题单元随机分流，并保证业务线、问题类型、用户等级和时段分布可比。客服场景尤其要防止同一用户跨组造成体验和归因污染。

指标分层归因

顶层看自助解决率、满意度、投诉率和人工成本；中间层看路由命中率、证据覆盖率、工具成功率、转人工率；底层看误答、拒答、重复追问和延迟。

幻觉要单独标注

将幻觉拆成无证据回答、证据误读、越权承诺、工具结果编造和事实过期。通过人工抽检、规则校验和 badcase 归因判断新架构是否真的降低幻觉。

泛化损失要压测

Expert 架构容易在长尾问题、跨域问题和混合意图上失效。需要保留长尾测试集、跨域样本和回退策略，监控无命中、错路由和多轮未解决比例。

结论要能指导迭代

如果收益主要来自路由准确，应优化分类和候选召回；如果来自工具执行，应强化权限和参数校验；如果长尾下降明显，应调整 Expert 粒度或增加 fallback。

易错点

只看总体解决率，不做链路归因。
把幻觉当成单一指标，不区分无证据、误读和越权承诺。
忽略长尾和跨域样本，导致上线后泛化问题暴露。
实验分流不稳定，同一用户跨组污染体验和数据。
没有记录版本和 Expert 命中信息，无法复盘收益来源。

面试官追问

A/B 测试里最关键的北极星指标是什么？

客服场景通常看有效解决率或首触解决率，但必须同时约束投诉率、误答率和满意度，避免用激进自动化换取短期解决率。

如何证明提升来自 Expert Agent？

需要记录路由命中、Expert 处理结果、工具调用、证据引用和版本信息，再做分层分析。只看整体指标无法区分架构、知识库和 Prompt 的贡献。

泛化性损失怎么发现？

关注无命中、错路由、长尾问题失败、跨域问题反复转交、多轮未解决和人工接管原因，并用固定长尾集做回归。

如果解决率上升但投诉也上升怎么办？

说明系统可能过度自动化或越权承诺。应收紧高风险 Expert 权限，提高拒答和转人工阈值，并复盘投诉样本。