真实面经题目 · 原创解析
电商客服 Agent 覆盖商品咨询、售后咨询和投诉安抚时,如何设计离线评测集、线上指标、用户满意度和提效口径来判断效果好坏?
这题考电商客服 Agent 的评测体系。回答要覆盖离线样本、线上指标、满意度、提效口径、风险指标和数据闭环。
真实面经题目 · 原创解析
这题考电商客服 Agent 的评测体系。回答要覆盖离线样本、线上指标、满意度、提效口径、风险指标和数据闭环。
电商客服 Agent 不能只用准确率评价。商品咨询、售后咨询和投诉安抚的目标不同,评测要同时看问题解决、用户体验、人工效率、业务风险和长期迭代。 离线评测集分场景:按商品咨询、订单物流、售后政策、退款争议、投诉安抚、活动规则和异常长尾分桶。每类样本要有标准答案、证据、风险标签和是否应转人工,并覆盖高频、长尾和高风险问题。 线上指标看闭环:核心看自助解决率、首触解决率、人工接管率、重复进线率、平均处理时长、转人工后坐席采纳率和工单有效率。指标要按场景分桶,否则整体提升可能掩盖投诉场景退化。 满意度要防偏:用户满意度可结合评价、投诉、会话中断、追问次数和人工申诉。只看点赞率会受样本选择和用户情绪影响,也容易忽略沉默流失和重复进线。 提效口径要算净收益:提效不是减少人工入口这么简单,要扣除误答补救、人工复核、知识维护、模型成本和投诉处理成本,计算净节省和体验变化,并和人工基线做同口径对比。 风险和回流:监控越权承诺、价格/库存错误、退款误导、隐私泄露和情绪升级。badcase 要回流到知识库、Prompt、工具规则和评测集。 最后要把方案落到可验证的指标、失败兜底和迭代闭环上。面试里不要只讲概念名词,要说明边界、取舍、数据来源、线上观测和出问题后的回滚或人工介入。
按商品咨询、订单物流、售后政策、退款争议、投诉安抚、活动规则和异常长尾分桶。每类样本要有标准答案、证据、风险标签和是否应转人工,并覆盖高频、长尾和高风险问题。
核心看自助解决率、首触解决率、人工接管率、重复进线率、平均处理时长、转人工后坐席采纳率和工单有效率。指标要按场景分桶,否则整体提升可能掩盖投诉场景退化。
用户满意度可结合评价、投诉、会话中断、追问次数和人工申诉。只看点赞率会受样本选择和用户情绪影响,也容易忽略沉默流失和重复进线。
提效不是减少人工入口这么简单,要扣除误答补救、人工复核、知识维护、模型成本和投诉处理成本,计算净节省和体验变化,并和人工基线做同口径对比。
监控越权承诺、价格/库存错误、退款误导、隐私泄露和情绪升级。badcase 要回流到知识库、Prompt、工具规则和评测集。
不一定。如果靠阻止转人工换来自助率,投诉和重复进线会上升。必须和误答率、满意度、重复进线一起看。
离线评测用于版本准入和回归,线上指标验证真实用户价值。离线好不代表线上一定好,因为真实问题分布和情绪更复杂。
比较同类流量下人工处理时长、坐席负载、重复进线、工单质量、用户满意度和模型成本,计算净收益。
除答案正确外,还要看情绪识别、语气、升级策略、是否越权承诺、是否及时转人工和投诉后续结果。