模型评估面试题解析

二分类任务中，AUC是什么意思？

二分类 AUC 通常指 ROC 曲线下面积，衡量模型把正样本排在负样本前面的整体排序能力。AUC 越大，说明模型区分正负样本的能力越强；随机排序约为 0.5，完美排序为 1。

模型评估统计学

模型性能如何评估？

模型性能评估不能只报一个 accuracy。更稳的回答是先确定任务类型和业务目标，再区分离线指标、线上指标、鲁棒性指标和成本指标，最后说明数据切分、统计显著性和误差分析如何保证评估可信。

同题还出现在 1 个公司岗位

模型评估统计学大语言模型

Reward model如何训练？

Reward model 训练的核心是把人类偏好转成可学习的评分函数。常见做法是对同一 prompt 的多个回答做偏好标注，构造 chosen/rejected pair，用 pairwise ranking loss 训练模型给更优回答更高分。

同题还出现在 1 个公司岗位

RLHF 模型训练模型评估

深度点击率预估模型如何选型？

深度点击率预估模型选型要看特征规模、样本量、实时性、可解释性和业务阶段。回答时可以从 LR/GBDT 到 Wide&Deep、DeepFM、DIN、DCN、MMoE 等模型演进讲起，再说明如何用离线指标和线上 A/B 验证。

推荐系统模型评估模型训练

如何判断模型是否过拟合？

判断过拟合要看训练集表现和验证/测试集表现是否明显分离。典型现象是训练 loss 持续下降、训练指标很好，但验证指标停滞或变差。还要结合学习曲线、分桶表现、交叉验证和线上泛化来排除数据泄漏或分布漂移。

模型评估模型训练统计学

Uplift模型评估指标有哪些？

Uplift 模型评估的核心不是预测转化概率，而是衡量干预带来的增量效果。回答应覆盖 uplift curve、Qini curve、AUUC、Qini 系数、分组 uplift、Top-K 增益和 A/B 验证。

Uplift 模型因果推断模型评估

如何用 XGBoost 处理不平衡分类问题？

用 XGBoost 处理不平衡分类，要同时调整训练目标、样本权重、采样策略、评估指标和阈值。面试回答不能只说调 `scale_pos_weight`，还要说明为什么 accuracy 不可靠，以及如何用 PR-AUC、Recall、F1 和业务成本验证。

XGBoost 样本不平衡模型评估

因果推断中，混淆变量和中介变量有什么区别？

混淆变量和中介变量的区别在于因果位置不同：混淆变量同时影响处理和结果，需要控制；中介变量位于处理到结果的路径上，解释作用机制，是否控制取决于要估计总效应还是直接效应。

因果推断统计学模型评估

在样本不平衡问题中，除了修正数据集，还能有哪些方法？

样本不平衡除了修正数据集，还可以从损失函数、样本权重、阈值移动、指标选择、模型集成、概率校准和业务决策成本入手。回答要说明不同方法解决的是训练偏差、预测阈值还是评估偏差。

同题还出现在 1 个公司岗位

样本不平衡模型训练模型评估

蚂蚁集团 / 算法

你觉得要如何提高目前支付宝中搜索功能的效果和用户体验？

这个问题可以按支付宝这类任务型搜索场景回答：同时提升搜索效果和用户体验，不能只改排序或入口样式。高质量回答应围绕意图理解、多路召回、排序目标、结果组织、交互反馈和实验评估展开。

搜索产品推荐系统模型评估

Reward model你觉得训练到什么程度可以？

Reward model 训练到什么程度可以，核心不是训练集 loss 越低越好，而是偏好排序能力、校准性、泛化能力和下游策略优化效果达到稳定可用，并且没有明显 reward hacking 风险。

RLHF 模型评估模型训练

你了解推荐线上比较核心的环节吗？

推荐线上核心环节通常包括请求接入、特征获取、多路召回、粗排、精排、重排混排、策略约束、日志回流和监控实验。回答要讲清每一层的目标、输入输出和效率取舍。

推荐系统系统设计模型评估

哔哩哔哩 / 算法

在B站视频业务的场景下，有哪些可能的挑选特征的方法？

B站视频业务挑选特征，要从业务目标、候选特征池、统计筛选、模型重要性、消融实验、多模态表征和线上验证共同判断，不能只凭相关性或单次离线指标决定。

特征工程推荐系统模型评估

快手 / C/C++

一个类似快手的大规模推荐系统有什么模块？

大规模推荐系统通常由数据采集、特征平台、召回、排序、重排、策略、实验、监控和反馈训练闭环组成。回答要强调模块分层和每层的工程约束，而不是只列推荐算法。

推荐系统系统设计模型评估

为什么需要 Reward model？

Reward model 的价值在于把人类偏好或业务偏好转成可优化的奖励信号，用来指导模型从会生成变成更符合偏好的生成。回答要说明它解决的是监督微调之后的偏好对齐问题。

RLHF 模型训练模型评估

Reward model 不准确时怎么办？

Reward model 不准确时不能直接继续强化学习，否则会放大错误偏好。稳妥回答要从数据、标注、模型、校准、对抗评测和下游闭环逐层修复。

RLHF 模型评估模型训练

哔哩哔哩 / 算法

从算法工程师的角度，如何预测苏州的房价？

房价预测题考察的是从业务问题到机器学习建模的完整流程。回答要覆盖目标定义、数据来源、特征工程、模型选择、验证方式、误差分析和上线监控。

统计学特征工程模型评估

数据集是如何构建和评测的？

数据集构建和评测题考察的是训练数据闭环。高质量回答要覆盖目标定义、数据采集、清洗标注、划分、质量评估、偏差检查、基线验证和持续迭代。

同题还出现在 1 个公司岗位

大语言模型模型训练模型评估

快手 / 算法

XGBoost 的特征重要性是如何得到的？

XGBoost 特征重要性通常来自树分裂统计，例如 split 次数、带来的增益和覆盖样本量。回答要说明这些指标的含义和偏差。

XGBoost 模型评估特征工程

拼多多 / 算法

模型训练时 advantage 或 loss 突然变成 0，可能是什么原因？

advantage 或 loss 突然变成 0 通常是训练信号、数据、mask、奖励归一化、数值稳定或日志统计出了问题，需要按链路逐层排查。

RLHF 模型训练模型评估

0、1 分类问题应使用什么损失函数，为什么不能用 MSE？

0、1 分类通常使用二元交叉熵或逻辑损失，而不是 MSE。核心原因是分类建模的是伯努利概率，交叉熵梯度和概率解释更合适。

模型训练模型评估神经网络

推荐系统如何解决马太效应？

推荐系统的马太效应是热门内容获得更多曝光后继续变热，长尾内容越来越难被发现，需要从召回、排序、重排、探索和评估偏差一起治理。

推荐系统特征工程模型评估

拼多多 / 算法

当模型出现 bad case 时，如何分析并改进？

模型 bad case 分析要先复现和分层定位，再判断是数据、特征、标签、模型、阈值还是业务分布问题，最后用可验证实验闭环改进。

模型评估模型训练特征工程

如何缓解过拟合？

缓解过拟合要从数据、模型容量、正则化、训练策略和评估切片一起回答，核心是降低模型对训练集噪声和偶然模式的依赖。

同题还出现在 1 个公司岗位

模型训练正则化模型评估

如何避免给用户重复推荐已看过的视频？

避免重复推荐已看过视频，要把曝光、播放、完播和负反馈记录接入召回、排序和重排链路，并处理跨设备、相似内容和时间窗口。

推荐系统特征工程模型评估

模型训练不收敛时怎么办？

模型训练不收敛要按数据、标签、特征、损失、优化器、学习率、初始化和梯度状态逐层排查，先定位现象再改参数。

模型训练模型评估神经网络

SMOTE 数据扩增算法的原理是什么？

SMOTE 是处理类别不平衡的过采样方法，它在少数类样本和近邻之间插值生成新样本，而不是简单复制少数类样本。

样本不平衡特征工程模型评估

重采样和欠采样会带来什么问题？

重采样和欠采样能缓解类别不平衡，但会改变训练分布，引入信息损失、过拟合、概率校准偏差和评估口径问题。

样本不平衡模型评估统计学

分类问题常用的评价指标有哪些？

分类指标不是一串名词，而是一套围绕混淆矩阵、阈值、样本分布、排序质量、概率校准和业务损失的评价体系。

模型评估统计学算法

决策树做分类和回归时有什么区别？

决策树做分类和回归时有什么区别？这道腾讯牛客题的关键是围绕“决策树分类与回归”讲清概念、机制、取舍和边界。分类树面向离散类别，常用信息增益、信息增益率或 Gini 指数选择划分；回归树面向连续值，常用平方误差、方差下降或 MAE 类目标选择切分。两者树结构相似，但叶子输出、损失度量和评估指标不同。

GBDT 中的梯度提升如何理解？

GBDT 中的梯度提升如何理解？这道腾讯牛客题的关键是围绕“GBDT 梯度提升机制”讲清概念、机制、取舍和边界。GBDT 的梯度提升可以理解为在函数空间做梯度下降：当前模型 F_{m-1} 已经给出预测后，下一棵 CART 回归树 h_m 去拟合损失函数对当前预测的负梯度，也就是伪残差，最后按 F_m=F_{m-1}+eta*h_m 逐轮加到模型里。

样本类别不平衡应该如何处理？

样本类别不平衡应该如何处理？这道腾讯牛客题的关键是围绕“类别不平衡处理”讲清概念、机制、取舍和边界。类别不平衡处理要先判断业务目标是提高少数类召回、控制误报成本还是校准概率。常用方法包括重采样、类别权重、阈值调整、难例挖掘、合成样本和使用更合适的评估指标。

模型评估

模型过拟合应该如何处理？

模型过拟合应该如何处理？这道腾讯牛客题的关键是围绕“模型过拟合治理”讲清概念、机制、取舍和边界。过拟合是模型在训练集表现好、验证或线上表现差，说明模型记住了训练噪声、泄漏或过细模式。处理要先看训练/验证曲线，再定位容量、数据、正则和评估泄漏。

决策树如何生成和剪枝？

决策树如何生成和剪枝？这道腾讯牛客题的关键是围绕“决策树生成与剪枝”讲清概念、机制、取舍和边界。决策树生成是递归选择最优特征和切分点，让子节点更纯或误差更小。ID3 常用信息增益，C4.5 用信息增益率，CART 分类用 Gini 指数、回归用平方误差下降。

XGBoost 和 GBDT 有什么区别？

XGBoost 和 GBDT 有什么区别？这道腾讯牛客题的关键是围绕“XGBoost 与 GBDT 差异”讲清概念、机制、取舍和边界。GBDT 是梯度提升树的一般框架，每轮用新树拟合当前损失的负梯度；XGBoost 是工程化增强实现，在目标函数中加入正则项，并用二阶泰勒展开近似损失。

L1 正则化和 L2 正则化有什么区别？

L1 正则化和 L2 正则化有什么区别？这道腾讯牛客题的关键是围绕“L1 与 L2 正则化差异”讲清概念、机制、取舍和边界。L1 正则在损失中加入参数绝对值和，倾向于把部分权重压到 0，产生稀疏特征选择；L2 正则加入参数平方和，倾向于均匀缩小权重，降低模型复杂度和过拟合。

随机森林和 XGBoost 有什么区别？

随机森林和 XGBoost 有什么区别？这道腾讯牛客题的关键是围绕“随机森林与 XGBoost 对比”讲清概念、机制、取舍和边界。随机森林是 bagging 思路，多棵树相互独立训练，通过样本和特征随机化降低方差；XGBoost 是 boosting 思路，树按顺序训练，每一棵修正前一轮模型的误差或负梯度。

决策树模型如何用在实际场景中？

决策树模型如何用在实际场景中？这道腾讯牛客题的关键是围绕“决策树适用场景”讲清概念、机制、取舍和边界。决策树适合表格数据、非线性阈值规则、特征尺度差异大、需要可解释路径的场景。它能处理数值和类别特征，输出从根到叶的规则链，便于业务解释和排查。

随机森林的基本原理是什么？

随机森林的基本原理是什么？这道腾讯牛客题的关键是围绕“随机森林基本原理”讲清概念、机制、取舍和边界。随机森林通过 bootstrap 有放回采样训练多棵决策树，并在每个节点只随机选择一部分特征参与切分，最后分类投票、回归平均。核心目标是让基学习器差异化，从而降低方差。

决策树，分类特征，使用one-hot encoding和不使用的区别？

决策树，分类特征，使用one-hot encoding和不使用的区别？这道腾讯牛客题的关键是围绕“决策树处理类别特征与 one-hot 编码”讲清概念、机制、取舍和边界。决策树处理分类特征时，是否 one-hot 取决于实现是否原生支持 categorical split。原生类别切分可以按类别集合分裂；如果只能做数值二叉切分，one-hot 会把一个多类别特征拆成多个 0/1 特征，改变树深、稀疏性和类别组合表达。

在什么场景下适合使用决策树，为什么？

在什么场景下适合使用决策树，为什么？这道腾讯牛客题的关键是围绕“决策树适用场景”讲清概念、机制、取舍和边界。决策树适合表格数据、非线性阈值规则、特征尺度差异大、需要可解释路径的场景。它能处理数值和类别特征，输出从根到叶的规则链，便于业务解释和排查。

随机森林的基本原理是什么，为什么它通常比单棵决策树更稳健？

随机森林的基本原理是什么，为什么它通常比单棵决策树更稳健？这道腾讯牛客题的关键是围绕“随机森林基本原理”讲清概念、机制、取舍和边界。随机森林通过 bootstrap 有放回采样训练多棵决策树，并在每个节点只随机选择一部分特征参与切分，最后分类投票、回归平均。核心目标是让基学习器差异化，从而降低方差。