真实面经题目 · 原创解析
评价模型优劣时,传统计量模型和机器学习模型的指标有什么不同,如何按解释性、预测效果和业务风险选择?
这题考察的是数据分析候选人能否区分传统计量模型和机器学习模型的评估目标。传统计量模型更关注解释性、参数显著性、假设检验和残差诊断;机器学习模型更关注样本外预测、泛化能力、过拟合控制和业务损失。优秀回答还要说明不同业务风险下如何选指标。
真实面经题目 · 原创解析
这题考察的是数据分析候选人能否区分传统计量模型和机器学习模型的评估目标。传统计量模型更关注解释性、参数显著性、假设检验和残差诊断;机器学习模型更关注样本外预测、泛化能力、过拟合控制和业务损失。优秀回答还要说明不同业务风险下如何选指标。
我会先说明两类模型的目标不同,所以评价指标也不同。传统计量模型通常更强调解释关系和统计推断,例如某个变量对目标变量是否显著、影响方向和大小是否合理、模型假设是否满足。机器学习模型更多强调预测效果和泛化能力,也就是在未见样本上能不能稳定做出准确判断。因此评价时不能用同一套指标简单比较。 对传统计量模型,比如线性回归、Logit、时间序列模型,我会看拟合优度和统计诊断。常见指标包括 R2、调整 R2、AIC、BIC、log-likelihood、t 检验、F 检验、p-value、置信区间,也会看残差是否独立、同方差、近似正态,是否存在多重共线性、自相关和异方差。这里的重点不是指标越高越好,而是模型解释是否稳定、变量符号是否符合业务逻辑、假设是否被严重违反。 对机器学习模型,我会更关注样本外表现。分类任务看 accuracy、precision、recall、F1、ROC-AUC、PR-AUC、logloss、KS、校准曲线和阈值下的误判成本;回归任务看 MAE、RMSE、MAPE、R2 和残差分布;排序或推荐任务看 NDCG、MAP、Hit Rate、转化率等。评估方式上要有训练集、验证集、测试集或交叉验证,关注过拟合、特征泄漏、分层表现、稳定性和线上 A/B 效果。 两者的差异可以概括为:计量模型更关心“为什么”和“影响是否显著”,机器学习更关心“预测准不准”和“能否泛化”。但实际业务中不能割裂。比如风控、营销响应、需求预测等场景,可能优先选择预测效果好的模型,同时用特征重要性、SHAP、分层分析和校准来补充解释;如果是政策评估、经营归因、因果解释或需要审计的场景,解释性、假设检验和稳定性就更重要,复杂黑盒模型不一定合适。 选择指标时还要结合业务风险。样本不均衡时不能只看 accuracy,要看 PR-AUC、recall、precision 和成本矩阵;金融或风控场景要关注误杀和漏放的不同代价;经营分析场景要关注解释可信度和可沟通性;线上产品场景还要看延迟、稳定性和监控。一个完整回答应该是先明确建模目的,再选评价指标,再做统计诊断或泛化验证,最后结合业务成本决定模型是否可用。
传统计量模型偏解释和推断,关注变量关系是否显著、方向是否合理;机器学习模型偏预测,关注未见样本上的泛化效果。
常见指标包括 R2、调整 R2、AIC、BIC、log-likelihood、t 检验、F 检验、p-value 和置信区间,用于判断拟合、复杂度和参数显著性。
还要检查残差、同方差、正态性、独立性、多重共线性、自相关和异方差。假设严重不满足时,显著性结论可能不可靠。
分类看 precision、recall、F1、ROC-AUC、PR-AUC、logloss、校准和阈值成本;回归看 MAE、RMSE、MAPE;排序看 NDCG、MAP 等。
机器学习要用训练/验证/测试拆分、交叉验证、时间外验证、分层表现和特征泄漏检查,避免只看训练集或单次随机切分。
可解释、可审计、因果归因场景更偏计量模型;高维、非线性、预测优先场景更适合机器学习,也可用 SHAP、特征重要性补充解释。
指标选择要看误报漏报成本、样本不均衡、上线延迟、稳定性和业务决策后果。模型优劣不是单一数学指标决定的。
R2 主要衡量回归拟合程度,不能说明变量因果关系,也不能保证样本外泛化。对于分类、排序或业务成本不对称的任务,R2 甚至不是合适指标。
不能只看 accuracy,应重点看 precision、recall、F1、PR-AUC、混淆矩阵和不同阈值下的业务成本。如果少数类很关键,召回率和漏报成本通常要重点关注。
不一定。p-value 只说明在假设条件下变量关系显著,还要看效应大小、置信区间、业务合理性、模型假设、共线性和样本外稳定性。
如果场景需要强解释、审计、稳定性或变量影响方向可沟通,黑盒模型可能风险更高。还要看上线成本、延迟、维护难度和错误后果。
可以先在同一训练、验证、测试划分下比较 AUC、PR-AUC、F1、校准和业务成本,再比较解释性、稳定性、分层表现和上线复杂度。Logit 解释强,树模型可能捕捉非线性更强。