60 秒回答模板

我会把实验问题定义成:在相同客服场景和流量条件下,引入大模型客服相对原方案是否提升用户满意度,并且不伤害解决率、投诉和成本。实验设计上,先确定实验对象和随机化单位,通常按用户、会话或工单做一致分流,避免同一用户在同一问题上同时遇到两种体验。实验组使用大模型客服,对照组使用原客服方案,入口、问题类型、人工转接规则和反馈采集方式尽量保持一致。主指标可以设为会话后满意度或满意用户占比,辅助指标包括问题解决率、首轮解决率、重复咨询率、转人工率、点踩率、平均轮次和响应耗时;护栏指标包括投诉率、错误答复率、安全违规、人工兜底失败和单会话成本。分析时要先做样本量和实验周期估算,检查 SRM、曝光污染和反馈缺失偏差,再看总体和分层效果。短期满意度可能有新鲜感和样本偏差,所以还要观察重复咨询、次日或一段时间内再次进线、投诉和人工复核 badcase,最后根据主指标显著、护栏不恶化和成本可接受来决定放量。

考点 实验框架
难度 真实面经题
回答目标 设计可信 A/B 实验

深入解析

01

实验假设要具体到客服满意度

这不是泛泛问大模型好不好,而是验证大模型客服是否提升用户满意度。假设应写清楚干预、对象和目标:在同类客服问题中,实验组使用大模型能力后,满意度或满意用户占比提升,同时解决率、投诉、安全和成本不变差。

02

随机化单位决定实验可信度

随机化可以按用户、会话或工单设计,但要避免同一用户同一问题在实验组和对照组之间来回切换。客服场景还要处理问题类型差异,可以按入口、问题类别、用户新老、咨询复杂度做分层或事后分层分析,避免实验组刚好承接了更简单的问题。

03

满意度要配合解决和风险指标

主指标可以是会话后满意度、满意率或差评率,但不能单独使用。辅助指标要看问题解决率、首轮解决率、重复咨询、转人工、平均轮次、响应耗时和用户追问;护栏指标要看投诉、错误答复、安全违规、人工兜底失败和单会话成本。

04

统计分析要处理偏差

实验前要估算样本量、最小可检测提升和实验周期;实验中检查 SRM、曝光日志、埋点完整性和反馈填写率。满意度问卷常有选择性反馈偏差,不能只看填写问卷的人,还要结合沉默用户的重复进线、转人工和投诉行为。

05

短期显著不等于可以全量

大模型客服可能有新鲜感,也可能短期回答更热情但长期解决率不好。因此要观察留存类或复访类信号,例如同一问题再次咨询、隔日投诉、人工复核错误和 badcase 复发。只有主指标显著提升、关键分层稳定、护栏不恶化且成本可接受,才适合扩大流量。

易错点

  • 把题目答成客服指标列表,没有说明 A/B 实验设计。
  • 随机化单位不清,导致同一用户被两种客服方案污染。
  • 只看满意度均值,不看解决率、投诉、安全和成本护栏。
  • 忽略问卷反馈偏差、SRM 和问题类型分层,实验结论不可信。

面试官追问

满意度问卷回收率很低时怎么办?

不能只依赖问卷。要结合点踩、重复咨询、转人工、投诉、会话中断和人工抽检,并评估填写用户与未填写用户是否存在系统性差异。

实验组满意度提高但转人工率也提高,怎么判断?

要看业务目标。如果转人工更及时让复杂问题被解决,可能是好事;如果简单问题也大量转人工,说明 AI 没有真正提升效率,需要按问题类型拆开看。

为什么不能只跑一天实验?

客服问题有周期性和新鲜感,短周期容易受活动、流量结构和偶然 badcase 影响。需要覆盖足够样本和典型时间波动。

如何处理实验组和对照组问题难度不同?

先在分流前按问题类别、入口、用户类型等做分层随机,分析时再看分层效果,必要时用回归或加权控制样本结构差异。