标签题目
统计学相关面试题
二分类任务中,AUC是什么意思?
二分类 AUC 通常指 ROC 曲线下面积,衡量模型把正样本排在负样本前面的整体排序能力。AUC 越大,说明模型区分正负样本的能力越强;随机排序约为 0.5,完美排序为 1。
模型性能如何评估?
模型性能评估不能只报一个 accuracy。更稳的回答是先确定任务类型和业务目标,再区分离线指标、线上指标、鲁棒性指标和成本指标,最后说明数据切分、统计显著性和误差分析如何保证评估可信。
同题还出现在 1 个公司岗位
如何判断模型是否过拟合?
判断过拟合要看训练集表现和验证/测试集表现是否明显分离。典型现象是训练 loss 持续下降、训练指标很好,但验证指标停滞或变差。还要结合学习曲线、分桶表现、交叉验证和线上泛化来排除数据泄漏或分布漂移。
特征工程中,为什么要对连续特征离散化?
连续特征离散化的价值在于增强非线性表达、降低异常值影响、提升可解释性,并让线性模型更容易学习分段关系。回答要同时说明适用场景、分箱方法、信息损失和线上一致性。
因果推断中,混淆变量和中介变量有什么区别?
混淆变量和中介变量的区别在于因果位置不同:混淆变量同时影响处理和结果,需要控制;中介变量位于处理到结果的路径上,解释作用机制,是否控制取决于要估计总效应还是直接效应。
因果推断中,无法获取随机对照数据时如何估计因果效应?
没有随机对照数据时估计因果效应,需要用观察数据方法尽量构造可比组。常见思路包括倾向评分、匹配、分层、回归控制、DID、工具变量、断点回归、DML 和敏感性分析,但结论可信度依赖假设。
同题还出现在 1 个公司岗位
L1 和 L2 正则化的区别是什么?
L1 和 L2 正则化都是限制模型复杂度、缓解过拟合的方法。L1 加的是参数绝对值和,容易产生稀疏权重;L2 加的是参数平方和,会平滑地压小权重,也常被称为权重衰减。
特征工程中,如何量化特征与目标变量的因果关系?
量化特征与目标变量的因果关系,不能只看相关系数或特征重要性,而要定义干预、构造对照、控制混淆并估计处理效应。常见方法包括 RCT、倾向评分、DID、IV、DML 和因果图分析。
PLCC 相关系数是怎么实现的?
PLCC 通常指 Pearson Linear Correlation Coefficient,实现时就是计算预测值和真实值的协方差,再除以两者标准差乘积。它衡量线性相关程度,范围在 -1 到 1。
从算法工程师的角度,如何预测苏州的房价?
房价预测题考察的是从业务问题到机器学习建模的完整流程。回答要覆盖目标定义、数据来源、特征工程、模型选择、验证方式、误差分析和上线监控。
常见的核函数有哪些?
常见核函数包括线性核、多项式核、RBF 高斯核、Sigmoid 核等;回答重点是说明核函数在不显式升维的情况下计算高维特征空间内积。
什么是随机森林?
随机森林是用多棵决策树做 Bagging 集成的方法,通过样本随机和特征随机降低单棵树的方差,最终用投票或平均得到更稳的预测。
遗传算法优化和梯度下降优化有什么区别?
遗传算法和梯度下降的区别在于优化信息、搜索方式和适用问题不同:前者是群体式全局启发搜索,后者依赖梯度做连续参数局部迭代。
如何实现洗牌算法?
公平洗牌应使用 Fisher-Yates 算法,从后往前随机选择一个未固定位置交换,保证每种排列出现概率相同。
重采样和欠采样会带来什么问题?
重采样和欠采样能缓解类别不平衡,但会改变训练分布,引入信息损失、过拟合、概率校准偏差和评估口径问题。
为什么 SVM 有效,如何推导其原理?
SVM 有效的核心是最大间隔思想、结构风险最小化和核技巧;推导时从几何间隔、约束优化、拉格朗日对偶和支持向量讲起。
分类问题常用的评价指标有哪些?
分类指标不是一串名词,而是一套围绕混淆矩阵、阈值、样本分布、排序质量、概率校准和业务损失的评价体系。
给店铺卖家发放贷款并控制逾期率,特征工程如何设计?
这题考风控特征工程的完整框架:围绕逾期风险定义标签、时间窗口、主体画像、经营现金流、历史履约、异常行为和数据泄漏控制。
如何设计一个用车需求量预估算法?
用车需求量预估本质是时空序列预测:在给定城市区域和时间窗口内预测未来订单请求量。完整方案包括区域划分、时间粒度定义、历史订单和供需特征构建、天气节假日活动等外部特征引入、时序或时空模型训练,以及用 MAE、RMSE、MAPE 和调度收益做离线与在线评估。
SVD 和 SVD++ 有什么区别?
推荐系统里的 SVD 通常指矩阵分解,将用户和物品映射到隐向量,用内积预测评分或偏好。SVD++ 在此基础上引入用户的隐式反馈物品集合,把用户交互过的物品隐向量聚合进用户表示,因此能利用浏览、点击、收藏等未显式评分行为,缓解评分稀疏问题。
万用户数据中有 5% 标签错误,如何用算法找出错误样本并赋予正确类别?
这道题考察 label noise 场景下的数据质量诊断和训练闭环。回答时要先区分“找出疑似错标样本”和“给出可信新标签”两个目标,再用交叉验证预测、模型分歧、邻域一致性和人工或高置信规则校验构建可控流程。
LDA 是什么,Dirichlet 分布和共轭分布在主题模型中有什么作用?
LDA 是 Latent Dirichlet Allocation,用文档-主题分布和主题-词分布解释文本集合。Dirichlet 分布为多项分布参数提供先验,控制主题和词分布的稀疏程度;共轭性质让后验更新和 Gibbs 采样、变分推断更容易处理。
VAE 中的 V 表示什么,KL 散度在 VAE 里起什么作用?
VAE 的 V 是 Variational,表示用可学习的近似后验 q(z|x) 去逼近真实后验 p(z|x)。KL 散度是 ELBO 中的正则项,约束编码得到的潜变量分布接近先验,保证隐空间连续、可采样,同时与重构项形成清晰的生成质量和分布规整取舍。
决策树的分裂准则有哪些?最大信息增益和最大信息增益比有什么不同,为什么最大信息增益有缺陷?
决策树分裂准则用于选择让子节点更纯的特征和切分点。信息增益看熵下降,容易偏向取值多的特征;信息增益比用特征自身的分裂信息做归一化,缓解多值特征偏置,但也可能偏向分裂信息过小的特征,需要结合阈值和验证效果判断。
外卖订单请求刷单识别如何建模?
这道题考察订单请求级风控建模。回答要从标签定义、特征体系、模型链路、阈值策略和反馈闭环展开,重点说明刷单识别不是单纯分类,而是要兼顾实时性、误伤成本、样本偏斜和对抗变化。
风控评分卡建模从样本、分箱到评估监控的流程是什么?
这道题考察风控评分卡的端到端建模能力。回答要覆盖样本定义、时间切分、缺失和异常处理、分箱与 WOE、可解释模型、评分映射、AUC/KS/校准/PSI 评估,以及上线后的稳定性监控。
评估 Qwen 这类大模型的泛化能力和鲁棒性时,评测集与切片指标应如何设计?
这题考大模型评测体系设计,核心是把泛化和鲁棒性定义成可切片、可统计、可回归的问题,避免只用一个公开 benchmark 总分判断模型好坏。
PPO 后训练中,GAE 的 lambda 参数如何影响优势估计的偏差和方差?
这题考 PPO 后训练里优势估计的稳定性来源:GAE lambda 通过控制 TD 残差的有效累积长度,在低方差高偏差和低偏差高方差之间取舍。
除了传统 RFM 模型,如何用无监督学习从海量用户行为中挖掘有商业价值的新用户分群?
这题考察的是数据分析候选人能否把无监督学习从“算法名词”落到用户分群的业务闭环。好的回答要先说明分群不是为了替代 RFM,而是从更丰富的行为、偏好、价格敏感度、生命周期和转化路径中发现可解释、可触达、可验证的人群,并用离线稳定性指标和线上业务实验共同证明分群有价值。
评价模型优劣时,传统计量模型和机器学习模型的指标有什么不同,如何按解释性、预测效果和业务风险选择?
这题考察的是数据分析候选人能否区分传统计量模型和机器学习模型的评估目标。传统计量模型更关注解释性、参数显著性、假设检验和残差诊断;机器学习模型更关注样本外预测、泛化能力、过拟合控制和业务损失。优秀回答还要说明不同业务风险下如何选指标。
在 Hive 中有一个城市百万级经纬度数据,如何做空间聚类,并兼顾距离计算、分区分桶、性能和结果验证?
这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案,而不是只说一个算法名。好的回答要先明确聚类目标和距离口径,再选择网格、Geohash、KMeans 或 DBSCAN 等方法,并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离,把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。
DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?
这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。
如果要对城市做聚类,会选择哪些特征,如何覆盖供需、地理、用户结构、时段、价格和运营指标?
城市聚类不是把所有城市指标堆进模型,而是先明确聚类用途,再构造可比较的城市级特征,覆盖供需、地理、用户结构、时段、价格和运营表现,并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。
如何向非技术同学解释因果推断和相关分析的差异,并用出行定价策略举例?
相关分析回答的是两个现象是否一起变化,因果推断回答的是如果主动改变价格策略会造成什么结果;在出行定价中,关键是识别混杂因素、设计对照、估计干预效果,并用业务同学能理解的语言解释不应把相关当因果。
关注页上线新的排序方案时,如何通过 A/B 测试选择更优方案,并设计核心指标、护栏指标和分层分析?
关注页排序方案 A/B 测试要围绕“用户是否更有效消费关注内容”设计指标:核心看关注页消费和互动提升,护栏看负反馈、留存、整体体验、创作者曝光和系统性能,并通过分层分析、显著性检验和长期观察决定是否上线。
同题还出现在 1 个公司岗位
时间序列数据中如何检测异常值?在传感器场景下如何判断当前点是否异常?
这题考时间序列异常检测的系统思维。不能只说 3σ 或箱线图,而要结合趋势、季节性、周期、噪声、传感器物理边界和业务代价。判断当前传感器点是否异常时,应比较它与历史基线、近期窗口、同类传感器、预测区间和物理约束的偏离程度,并区分点异常、上下文异常和持续漂移。
作为数据分析师,遇到辛普森悖论导致汇总数据和分层数据结论相反时,应如何判断和处理?
这题考辛普森悖论下的数据判断能力,重点不是机械选择汇总或分层,而是先确认业务问题、分层变量是否为混杂因素,再用因果和实验思路给出可执行结论。
如何通俗解释“统计不显著”是什么意思?
这题考统计显著性的通俗解释,重点是说明“不显著不等于没效果”,而是当前样本证据不足以排除随机波动。
多变量回归结果好不好,应该看哪些指标和诊断结果?
这题考多变量回归的完整评估框架,不能只说 R²,而要从拟合优度、泛化误差、变量显著性、模型假设、共线性和业务解释一起判断。
机器学习中的偏差和方差分别指什么,如何判断并降低它们?
这题考偏差-方差分解和模型泛化诊断,重点是能用欠拟合、过拟合、训练/验证误差曲线解释问题,并给出对应降低方法。
如果 CTR 整体不变但 CVR 下降,数据分析师应如何定位原因?
这道题考察数据分析师的漏斗诊断能力。CTR 稳定但 CVR 下降,说明曝光到点击的吸引力整体没明显变差,但点击后的转化承接、点击人群质量、供给匹配、页面链路、转化回传或流量结构可能出现问题。好答案要先校验数据,再拆漏斗、切分人群、区分结构变化和真实转化率下降。
DBSCAN 的原理是什么?如何用伪代码描述其聚类过程?
这道题考察 DBSCAN 的密度聚类思想和过程表达能力。核心是用 eps 邻域和 minPts 定义核心点、边界点和噪声点,从核心点出发把密度可达的点扩展成簇;它不需要预先指定簇数,能发现任意形状簇和离群点,但对参数、距离度量和密度差异敏感。
如何基于历史数据预测 60 天后的 DAU?
这题考数据分析师如何把“预测 60 天后的 DAU”做成严谨的时间序列和业务预测问题。高质量回答要覆盖目标口径、历史数据、特征、模型、验证、预测区间、业务事件和可解释交付。
同一分类器和同一阈值下,测试集正负样本比例从 1:1 变为 1:1000 时,Precision 和 Recall 通常会如何变化,为什么?
在同一分类器、同一阈值、正负类条件分布不变的前提下,Recall 本质上是 TPR,通常基本不随类别先验变化;Precision 强依赖正样本先验,会随着正样本比例从 1:1 降到 1:1000 而大幅下降。回答关键是写出 Precision = π TPR / (π TPR + (1-π) FPR),并说明前提、例外和阈值重调策略。
给定用户 session 曝光或点击序列,如何设计公式衡量推荐内容多样性并用于优化?
这题要求给定用户 session 的曝光或点击序列,设计可计算的推荐内容多样性公式,并说明如何用于优化。高质量答案不应只说“类别越多越好”,而要根据业务内容表示定义多样性:可以从类目覆盖、分布熵、两两相似度、去重率、新颖性、序列相邻差异和用户兴趣覆盖几个角度构造指标。对于 session 序列,常用公式包括 intra-list diversity:`ILD = 1 - average(sim(i,j))`;类别熵:`H = -Σ p_c log p_c`;有效类别数:`exp(H)`;相邻多样性:`1 - average(sim(i_t, i_{t+1}))`。用于优化时不能盲目提高多样性,需要和相关性、CTR/CVR、时长、留存做 trade-off,可在重排阶段加入多样性正则或约束,并用 A/B 验证用户体验和业务指标。
同公司岗位有 2 条面经记录
如何设计 A/B Test 评估文章推荐对大盘阅读量的增量影响?
这题考推荐功能的增量实验设计。回答要从实验目标、随机单位、指标层级、替代效应、分层分析和护栏指标展开,核心是证明文章推荐带来了大盘阅读量净增,而不是把原本会发生的阅读从其他入口搬过来。
A/B Test 中为什么常用 t 检验,它的适用前提和局限是什么?
这题考 A/B Test 的统计基础。t 检验常用于比较两组均值差异,因为它在方差未知、样本均值近似正态时能给出差异显著性判断;但前提、指标类型、样本独立性、方差差异和业务效应都必须一起说明。
A/B Test 的样本量应如何估算?
这题考 A/B Test 基础统计能力和业务实验意识。好的回答要从目标指标、基准水平、最小可检测效果、显著性水平、统计功效、方差、分流比例和实验单位讲起,而不是只背一个公式。