60 秒回答模板

电商客服 Agent 不能只用准确率评价。商品咨询、售后咨询和投诉安抚的目标不同,评测要同时看问题解决、用户体验、人工效率、业务风险和长期迭代。 离线评测集分场景:按商品咨询、订单物流、售后政策、退款争议、投诉安抚、活动规则和异常长尾分桶。每类样本要有标准答案、证据、风险标签和是否应转人工,并覆盖高频、长尾和高风险问题。 线上指标看闭环:核心看自助解决率、首触解决率、人工接管率、重复进线率、平均处理时长、转人工后坐席采纳率和工单有效率。指标要按场景分桶,否则整体提升可能掩盖投诉场景退化。 满意度要防偏:用户满意度可结合评价、投诉、会话中断、追问次数和人工申诉。只看点赞率会受样本选择和用户情绪影响,也容易忽略沉默流失和重复进线。 提效口径要算净收益:提效不是减少人工入口这么简单,要扣除误答补救、人工复核、知识维护、模型成本和投诉处理成本,计算净节省和体验变化,并和人工基线做同口径对比。 风险和回流:监控越权承诺、价格/库存错误、退款误导、隐私泄露和情绪升级。badcase 要回流到知识库、Prompt、工具规则和评测集。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。

考点 场景分桶
难度 真实面经题
回答目标 展示你能建立客服 Agent 从离线准入到线上提效的完整评测体系。

深入解析

01

离线评测集分场景

按商品咨询、订单物流、售后政策、退款争议、投诉安抚、活动规则和异常长尾分桶。每类样本要有标准答案、证据、风险标签和是否应转人工,并覆盖高频、长尾和高风险问题。

02

线上指标看闭环

核心看自助解决率、首触解决率、人工接管率、重复进线率、平均处理时长、转人工后坐席采纳率和工单有效率。指标要按场景分桶,否则整体提升可能掩盖投诉场景退化。

03

满意度要防偏

用户满意度可结合评价、投诉、会话中断、追问次数和人工申诉。只看点赞率会受样本选择和用户情绪影响,也容易忽略沉默流失和重复进线。

04

提效口径要算净收益

提效不是减少人工入口这么简单,要扣除误答补救、人工复核、知识维护、模型成本和投诉处理成本,计算净节省和体验变化,并和人工基线做同口径对比。

05

风险和回流

监控越权承诺、价格/库存错误、退款误导、隐私泄露和情绪升级。badcase 要回流到知识库、Prompt、工具规则和评测集。

易错点

  • 只用答案准确率评价客服 Agent。
  • 不区分商品咨询、售后和投诉场景。
  • 把转人工率下降直接等同于提效。
  • 忽略误答补救和模型调用成本。
  • badcase 不回流评测集,版本迭代不可控。

面试官追问

自助解决率越高越好吗?

不一定。如果靠阻止转人工换来自助率,投诉和重复进线会上升。必须和误答率、满意度、重复进线一起看。

离线评测和线上评测如何配合?

离线评测用于版本准入和回归,线上指标验证真实用户价值。离线好不代表线上一定好,因为真实问题分布和情绪更复杂。

如何证明 Agent 真的提效?

比较同类流量下人工处理时长、坐席负载、重复进线、工单质量、用户满意度和模型成本,计算净收益。

投诉安抚如何评测?

除答案正确外,还要看情绪识别、语气、升级策略、是否越权承诺、是否及时转人工和投诉后续结果。