真实面经题目 · 原创解析
客服 Agent 从通用 Agent 拆成 Expert Agent 后,如何设计 A/B 测试与指标归因,判断提升来自路由、Prompt 还是 Workflow,并监控是否引入泛化损失?
这题考架构改造后的实验归因能力。回答要说明如何设计 A/B 测试、拆指标、定位 Expert Agent 带来的收益,同时监控幻觉下降和泛化性损失。
真实面经题目 · 原创解析
这题考架构改造后的实验归因能力。回答要说明如何设计 A/B 测试、拆指标、定位 Expert Agent 带来的收益,同时监控幻觉下降和泛化性损失。
通用 Agent 拆成 Expert Agent 后,A/B 测试不能只看总体解决率上涨。要把收益拆到路由、检索、工具执行、转人工、回答质量和用户体验各环节,否则无法判断提升来自专家拆分、知识更新、Prompt 改动还是流量结构变化。 先定义实验单元:按用户、会话或问题单元随机分流,并保证业务线、问题类型、用户等级和时段分布可比。客服场景尤其要防止同一用户跨组造成体验和归因污染。 指标分层归因:顶层看自助解决率、满意度、投诉率和人工成本;中间层看路由命中率、证据覆盖率、工具成功率、转人工率;底层看误答、拒答、重复追问和延迟。 幻觉要单独标注:将幻觉拆成无证据回答、证据误读、越权承诺、工具结果编造和事实过期。通过人工抽检、规则校验和 badcase 归因判断新架构是否真的降低幻觉。 泛化损失要压测:Expert 架构容易在长尾问题、跨域问题和混合意图上失效。需要保留长尾测试集、跨域样本和回退策略,监控无命中、错路由和多轮未解决比例。 结论要能指导迭代:如果收益主要来自路由准确,应优化分类和候选召回;如果来自工具执行,应强化权限和参数校验;如果长尾下降明显,应调整 Expert 粒度或增加 fallback。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。
按用户、会话或问题单元随机分流,并保证业务线、问题类型、用户等级和时段分布可比。客服场景尤其要防止同一用户跨组造成体验和归因污染。
顶层看自助解决率、满意度、投诉率和人工成本;中间层看路由命中率、证据覆盖率、工具成功率、转人工率;底层看误答、拒答、重复追问和延迟。
将幻觉拆成无证据回答、证据误读、越权承诺、工具结果编造和事实过期。通过人工抽检、规则校验和 badcase 归因判断新架构是否真的降低幻觉。
Expert 架构容易在长尾问题、跨域问题和混合意图上失效。需要保留长尾测试集、跨域样本和回退策略,监控无命中、错路由和多轮未解决比例。
如果收益主要来自路由准确,应优化分类和候选召回;如果来自工具执行,应强化权限和参数校验;如果长尾下降明显,应调整 Expert 粒度或增加 fallback。
客服场景通常看有效解决率或首触解决率,但必须同时约束投诉率、误答率和满意度,避免用激进自动化换取短期解决率。
需要记录路由命中、Expert 处理结果、工具调用、证据引用和版本信息,再做分层分析。只看整体指标无法区分架构、知识库和 Prompt 的贡献。
关注无命中、错路由、长尾问题失败、跨域问题反复转交、多轮未解决和人工接管原因,并用固定长尾集做回归。
说明系统可能过度自动化或越权承诺。应收紧高风险 Expert 权限,提高拒答和转人工阈值,并复盘投诉样本。