真实面经题目 · 原创解析

客服 Agent 从通用 Agent 拆成 Expert Agent 后,如何设计 A/B 测试与指标归因,判断提升来自路由、Prompt 还是 Workflow,并监控是否引入泛化损失?

这题考架构改造后的实验归因能力。回答要说明如何设计 A/B 测试、拆指标、定位 Expert Agent 带来的收益,同时监控幻觉下降和泛化性损失。

出现于:字节跳动 · AI 应用开发

60 秒回答模板

通用 Agent 拆成 Expert Agent 后,A/B 测试不能只看总体解决率上涨。要把收益拆到路由、检索、工具执行、转人工、回答质量和用户体验各环节,否则无法判断提升来自专家拆分、知识更新、Prompt 改动还是流量结构变化。 先定义实验单元:按用户、会话或问题单元随机分流,并保证业务线、问题类型、用户等级和时段分布可比。客服场景尤其要防止同一用户跨组造成体验和归因污染。 指标分层归因:顶层看自助解决率、满意度、投诉率和人工成本;中间层看路由命中率、证据覆盖率、工具成功率、转人工率;底层看误答、拒答、重复追问和延迟。 幻觉要单独标注:将幻觉拆成无证据回答、证据误读、越权承诺、工具结果编造和事实过期。通过人工抽检、规则校验和 badcase 归因判断新架构是否真的降低幻觉。 泛化损失要压测:Expert 架构容易在长尾问题、跨域问题和混合意图上失效。需要保留长尾测试集、跨域样本和回退策略,监控无命中、错路由和多轮未解决比例。 结论要能指导迭代:如果收益主要来自路由准确,应优化分类和候选召回;如果来自工具执行,应强化权限和参数校验;如果长尾下降明显,应调整 Expert 粒度或增加 fallback。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 随机分流
难度 真实面经题
回答目标 展示你能用实验和指标判断 Expert Agent 架构是否真的创造价值,并识别副作用。

深入解析

01

先定义实验单元

按用户、会话或问题单元随机分流,并保证业务线、问题类型、用户等级和时段分布可比。客服场景尤其要防止同一用户跨组造成体验和归因污染。

02

指标分层归因

顶层看自助解决率、满意度、投诉率和人工成本;中间层看路由命中率、证据覆盖率、工具成功率、转人工率;底层看误答、拒答、重复追问和延迟。

03

幻觉要单独标注

将幻觉拆成无证据回答、证据误读、越权承诺、工具结果编造和事实过期。通过人工抽检、规则校验和 badcase 归因判断新架构是否真的降低幻觉。

04

泛化损失要压测

Expert 架构容易在长尾问题、跨域问题和混合意图上失效。需要保留长尾测试集、跨域样本和回退策略,监控无命中、错路由和多轮未解决比例。

05

结论要能指导迭代

如果收益主要来自路由准确,应优化分类和候选召回;如果来自工具执行,应强化权限和参数校验;如果长尾下降明显,应调整 Expert 粒度或增加 fallback。

易错点

  • 只看总体解决率,不做链路归因。
  • 把幻觉当成单一指标,不区分无证据、误读和越权承诺。
  • 忽略长尾和跨域样本,导致上线后泛化问题暴露。
  • 实验分流不稳定,同一用户跨组污染体验和数据。
  • 没有记录版本和 Expert 命中信息,无法复盘收益来源。

面试官追问

A/B 测试里最关键的北极星指标是什么?

客服场景通常看有效解决率或首触解决率,但必须同时约束投诉率、误答率和满意度,避免用激进自动化换取短期解决率。

如何证明提升来自 Expert Agent?

需要记录路由命中、Expert 处理结果、工具调用、证据引用和版本信息,再做分层分析。只看整体指标无法区分架构、知识库和 Prompt 的贡献。

泛化性损失怎么发现?

关注无命中、错路由、长尾问题失败、跨域问题反复转交、多轮未解决和人工接管原因,并用固定长尾集做回归。

如果解决率上升但投诉也上升怎么办?

说明系统可能过度自动化或越权承诺。应收紧高风险 Expert 权限,提高拒答和转人工阈值,并复盘投诉样本。