评价模型优劣时，传统计量模型和机器学习模型的指标有什么不同，如何按解释性、预测效果和业务风险选择？｜华为数据分析面经解析

60 秒回答模板

我会先说明两类模型的目标不同，所以评价指标也不同。传统计量模型通常更强调解释关系和统计推断，例如某个变量对目标变量是否显著、影响方向和大小是否合理、模型假设是否满足。机器学习模型更多强调预测效果和泛化能力，也就是在未见样本上能不能稳定做出准确判断。因此评价时不能用同一套指标简单比较。对传统计量模型，比如线性回归、Logit、时间序列模型，我会看拟合优度和统计诊断。常见指标包括 R2、调整 R2、AIC、BIC、log-likelihood、t 检验、F 检验、p-value、置信区间，也会看残差是否独立、同方差、近似正态，是否存在多重共线性、自相关和异方差。这里的重点不是指标越高越好，而是模型解释是否稳定、变量符号是否符合业务逻辑、假设是否被严重违反。对机器学习模型，我会更关注样本外表现。分类任务看 accuracy、precision、recall、F1、ROC-AUC、PR-AUC、logloss、KS、校准曲线和阈值下的误判成本；回归任务看 MAE、RMSE、MAPE、R2 和残差分布；排序或推荐任务看 NDCG、MAP、Hit Rate、转化率等。评估方式上要有训练集、验证集、测试集或交叉验证，关注过拟合、特征泄漏、分层表现、稳定性和线上 A/B 效果。两者的差异可以概括为：计量模型更关心“为什么”和“影响是否显著”，机器学习更关心“预测准不准”和“能否泛化”。但实际业务中不能割裂。比如风控、营销响应、需求预测等场景，可能优先选择预测效果好的模型，同时用特征重要性、SHAP、分层分析和校准来补充解释；如果是政策评估、经营归因、因果解释或需要审计的场景，解释性、假设检验和稳定性就更重要，复杂黑盒模型不一定合适。选择指标时还要结合业务风险。样本不均衡时不能只看 accuracy，要看 PR-AUC、recall、precision 和成本矩阵；金融或风控场景要关注误杀和漏放的不同代价；经营分析场景要关注解释可信度和可沟通性；线上产品场景还要看延迟、稳定性和监控。一个完整回答应该是先明确建模目的，再选评价指标，再做统计诊断或泛化验证，最后结合业务成本决定模型是否可用。

考点 评价目标不同

难度 真实面经题

回答目标 让面试官看到你理解模型评价要从建模目的出发：计量模型重解释和统计诊断，机器学习重预测和泛化，并能按业务风险选择合适指标与模型。

深入解析

先区分目标

传统计量模型偏解释和推断，关注变量关系是否显著、方向是否合理；机器学习模型偏预测，关注未见样本上的泛化效果。

计量拟合指标

常见指标包括 R2、调整 R2、AIC、BIC、log-likelihood、t 检验、F 检验、p-value 和置信区间，用于判断拟合、复杂度和参数显著性。

计量诊断检验

还要检查残差、同方差、正态性、独立性、多重共线性、自相关和异方差。假设严重不满足时，显著性结论可能不可靠。

机器学习指标

分类看 precision、recall、F1、ROC-AUC、PR-AUC、logloss、校准和阈值成本；回归看 MAE、RMSE、MAPE；排序看 NDCG、MAP 等。

泛化评估方式

机器学习要用训练/验证/测试拆分、交叉验证、时间外验证、分层表现和特征泄漏检查，避免只看训练集或单次随机切分。

解释与预测权衡

可解释、可审计、因果归因场景更偏计量模型；高维、非线性、预测优先场景更适合机器学习，也可用 SHAP、特征重要性补充解释。

结合业务风险

指标选择要看误报漏报成本、样本不均衡、上线延迟、稳定性和业务决策后果。模型优劣不是单一数学指标决定的。

易错点

把传统计量模型和机器学习模型都只用准确率或 R2 粗暴比较。
只背指标名称，不说明指标适用的任务类型和业务含义。
认为 p-value 显著就代表模型一定好，忽略假设检验和效应大小。
只看训练集效果，忽略验证集、测试集、交叉验证和过拟合。
臆造华为内部评价体系、模型规范或业务指标。

面试官追问

为什么不能只用 R2 评价模型好坏？

R2 主要衡量回归拟合程度，不能说明变量因果关系，也不能保证样本外泛化。对于分类、排序或业务成本不对称的任务，R2 甚至不是合适指标。

样本不均衡分类任务应该看什么指标？

不能只看 accuracy，应重点看 precision、recall、F1、PR-AUC、混淆矩阵和不同阈值下的业务成本。如果少数类很关键，召回率和漏报成本通常要重点关注。

计量模型里 p-value 很小就说明模型好吗？

不一定。p-value 只说明在假设条件下变量关系显著，还要看效应大小、置信区间、业务合理性、模型假设、共线性和样本外稳定性。

机器学习模型准确率更高时，为什么还可能不用它？

如果场景需要强解释、审计、稳定性或变量影响方向可沟通，黑盒模型可能风险更高。还要看上线成本、延迟、维护难度和错误后果。

如何比较一个 Logit 模型和一个树模型？

可以先在同一训练、验证、测试划分下比较 AUC、PR-AUC、F1、校准和业务成本，再比较解释性、稳定性、分层表现和上线复杂度。Logit 解释强，树模型可能捕捉非线性更强。