如何设计 A/B 实验评估大模型智能客服是否提升用户满意度？｜拼多多数据分析面经解析

60 秒回答模板

我会把实验问题定义成：在相同客服场景和流量条件下，引入大模型客服相对原方案是否提升用户满意度，并且不伤害解决率、投诉和成本。实验设计上，先确定实验对象和随机化单位，通常按用户、会话或工单做一致分流，避免同一用户在同一问题上同时遇到两种体验。实验组使用大模型客服，对照组使用原客服方案，入口、问题类型、人工转接规则和反馈采集方式尽量保持一致。主指标可以设为会话后满意度或满意用户占比，辅助指标包括问题解决率、首轮解决率、重复咨询率、转人工率、点踩率、平均轮次和响应耗时；护栏指标包括投诉率、错误答复率、安全违规、人工兜底失败和单会话成本。分析时要先做样本量和实验周期估算，检查 SRM、曝光污染和反馈缺失偏差，再看总体和分层效果。短期满意度可能有新鲜感和样本偏差，所以还要观察重复咨询、次日或一段时间内再次进线、投诉和人工复核 badcase，最后根据主指标显著、护栏不恶化和成本可接受来决定放量。

考点 实验框架

难度 真实面经题

回答目标 设计可信 A/B 实验

深入解析

实验假设要具体到客服满意度

这不是泛泛问大模型好不好，而是验证大模型客服是否提升用户满意度。假设应写清楚干预、对象和目标：在同类客服问题中，实验组使用大模型能力后，满意度或满意用户占比提升，同时解决率、投诉、安全和成本不变差。

随机化单位决定实验可信度

随机化可以按用户、会话或工单设计，但要避免同一用户同一问题在实验组和对照组之间来回切换。客服场景还要处理问题类型差异，可以按入口、问题类别、用户新老、咨询复杂度做分层或事后分层分析，避免实验组刚好承接了更简单的问题。

满意度要配合解决和风险指标

主指标可以是会话后满意度、满意率或差评率，但不能单独使用。辅助指标要看问题解决率、首轮解决率、重复咨询、转人工、平均轮次、响应耗时和用户追问；护栏指标要看投诉、错误答复、安全违规、人工兜底失败和单会话成本。

统计分析要处理偏差

实验前要估算样本量、最小可检测提升和实验周期；实验中检查 SRM、曝光日志、埋点完整性和反馈填写率。满意度问卷常有选择性反馈偏差，不能只看填写问卷的人，还要结合沉默用户的重复进线、转人工和投诉行为。

短期显著不等于可以全量

大模型客服可能有新鲜感，也可能短期回答更热情但长期解决率不好。因此要观察留存类或复访类信号，例如同一问题再次咨询、隔日投诉、人工复核错误和 badcase 复发。只有主指标显著提升、关键分层稳定、护栏不恶化且成本可接受，才适合扩大流量。

易错点

把题目答成客服指标列表，没有说明 A/B 实验设计。
随机化单位不清，导致同一用户被两种客服方案污染。
只看满意度均值，不看解决率、投诉、安全和成本护栏。
忽略问卷反馈偏差、SRM 和问题类型分层，实验结论不可信。

面试官追问

满意度问卷回收率很低时怎么办？

不能只依赖问卷。要结合点踩、重复咨询、转人工、投诉、会话中断和人工抽检，并评估填写用户与未填写用户是否存在系统性差异。

实验组满意度提高但转人工率也提高，怎么判断？

要看业务目标。如果转人工更及时让复杂问题被解决，可能是好事；如果简单问题也大量转人工，说明 AI 没有真正提升效率，需要按问题类型拆开看。

为什么不能只跑一天实验？

客服问题有周期性和新鲜感，短周期容易受活动、流量结构和偶然 badcase 影响。需要覆盖足够样本和典型时间波动。

如何处理实验组和对照组问题难度不同？

先在分流前按问题类别、入口、用户类型等做分层随机，分析时再看分层效果，必要时用回归或加权控制样本结构差异。