当模型出现 bad case 时，如何分析并改进？｜拼多多算法面经解析

60 秒回答模板

我会先收集 bad case 并按业务场景、类别、用户、时间、设备、样本难度分层，确认是不是集中在某些切片。然后检查数据和标签是否有噪声，特征是否缺失或穿越，训练和线上特征是否一致，模型是否欠拟合或过拟合，阈值和后处理是否合适。改进可以从补数据、清洗标签、加特征、调模型、改损失、调阈值和重排规则入手，最后通过离线指标和线上 A/B 验证。

考点 分层定位

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

先定义 bad case

bad case 不是泛泛说模型错了，要明确错误类型、业务影响和样本范围，例如误召、漏召、排序错位、分类错误或生成结果不符合预期。定义越清楚，后续定位才不会发散。

分层定位问题

按类别、场景、用户群、时间、设备、地域、长尾样本和模型置信度分桶，找出错误是否集中在某些切片，避免被整体指标平均掉。

检查数据和特征

常见根因包括标签噪声、样本偏差、数据泄漏、特征缺失、离在线不一致、训练数据过旧和线上分布变化。先排这些比盲目换模型更有效。

再判断模型和策略

如果数据特征没问题，再看模型容量、损失函数、类别不平衡、阈值、校准、后处理和业务规则是否导致错误集中出现。

用实验闭环改进

每个改进都要能被验证，例如补充困难样本、重采样、加特征、调阈值、模型蒸馏或规则兜底。离线通过后还要线上灰度和 A/B 实验，确认不是只修好了少数样本却伤害整体表现。

易错点

不要一看到 bad case 就说换更大模型，先定位数据和特征问题。
不要只看整体准确率，切片 bad case 才能暴露真实风险。
不要只做人工挑样本，要沉淀可复现的评测集和验证指标。

面试官追问

如果 bad case 很少但影响很大怎么办？

可以用规则兜底、人工审核、高风险阈值和专门困难样本集评估，而不是只看平均指标。

如何判断是数据问题还是模型问题？

先看标签、特征缺失、分布差异和离在线一致性；若数据可靠，再做模型容量、损失和阈值实验。

bad case 分析如何沉淀？

建立错误类型 taxonomy、样本库、切片指标和回归评测集，让后续模型迭代持续检查同类问题。