真实面经题目 · 原创解析
如何设计 A/B 实验评估大模型智能客服是否提升用户满意度?
这题考用数据分析方法验证大模型客服是否提升满意度,重点是实验假设、随机化单位、主指标与护栏指标、样本量、显著性和长期效果判断。
真实面经题目 · 原创解析
这题考用数据分析方法验证大模型客服是否提升满意度,重点是实验假设、随机化单位、主指标与护栏指标、样本量、显著性和长期效果判断。
我会把实验问题定义成:在相同客服场景和流量条件下,引入大模型客服相对原方案是否提升用户满意度,并且不伤害解决率、投诉和成本。实验设计上,先确定实验对象和随机化单位,通常按用户、会话或工单做一致分流,避免同一用户在同一问题上同时遇到两种体验。实验组使用大模型客服,对照组使用原客服方案,入口、问题类型、人工转接规则和反馈采集方式尽量保持一致。主指标可以设为会话后满意度或满意用户占比,辅助指标包括问题解决率、首轮解决率、重复咨询率、转人工率、点踩率、平均轮次和响应耗时;护栏指标包括投诉率、错误答复率、安全违规、人工兜底失败和单会话成本。分析时要先做样本量和实验周期估算,检查 SRM、曝光污染和反馈缺失偏差,再看总体和分层效果。短期满意度可能有新鲜感和样本偏差,所以还要观察重复咨询、次日或一段时间内再次进线、投诉和人工复核 badcase,最后根据主指标显著、护栏不恶化和成本可接受来决定放量。
这不是泛泛问大模型好不好,而是验证大模型客服是否提升用户满意度。假设应写清楚干预、对象和目标:在同类客服问题中,实验组使用大模型能力后,满意度或满意用户占比提升,同时解决率、投诉、安全和成本不变差。
随机化可以按用户、会话或工单设计,但要避免同一用户同一问题在实验组和对照组之间来回切换。客服场景还要处理问题类型差异,可以按入口、问题类别、用户新老、咨询复杂度做分层或事后分层分析,避免实验组刚好承接了更简单的问题。
主指标可以是会话后满意度、满意率或差评率,但不能单独使用。辅助指标要看问题解决率、首轮解决率、重复咨询、转人工、平均轮次、响应耗时和用户追问;护栏指标要看投诉、错误答复、安全违规、人工兜底失败和单会话成本。
实验前要估算样本量、最小可检测提升和实验周期;实验中检查 SRM、曝光日志、埋点完整性和反馈填写率。满意度问卷常有选择性反馈偏差,不能只看填写问卷的人,还要结合沉默用户的重复进线、转人工和投诉行为。
大模型客服可能有新鲜感,也可能短期回答更热情但长期解决率不好。因此要观察留存类或复访类信号,例如同一问题再次咨询、隔日投诉、人工复核错误和 badcase 复发。只有主指标显著提升、关键分层稳定、护栏不恶化且成本可接受,才适合扩大流量。
不能只依赖问卷。要结合点踩、重复咨询、转人工、投诉、会话中断和人工抽检,并评估填写用户与未填写用户是否存在系统性差异。
要看业务目标。如果转人工更及时让复杂问题被解决,可能是好事;如果简单问题也大量转人工,说明 AI 没有真正提升效率,需要按问题类型拆开看。
客服问题有周期性和新鲜感,短周期容易受活动、流量结构和偶然 badcase 影响。需要覆盖足够样本和典型时间波动。
先在分流前按问题类别、入口、用户类型等做分层随机,分析时再看分层效果,必要时用回归或加权控制样本结构差异。