知识点标签

统计学面试题解析

统计学相关面试题解析,按真实面经题目沉淀核心机制、易错点和面试官追问。

51 道题 4 个岗位 14 个公司

统计学相关面试题

除了传统 RFM 模型,如何用无监督学习从海量用户行为中挖掘有商业价值的新用户分群?

这题考察的是数据分析候选人能否把无监督学习从“算法名词”落到用户分群的业务闭环。好的回答要先说明分群不是为了替代 RFM,而是从更丰富的行为、偏好、价格敏感度、生命周期和转化路径中发现可解释、可触达、可验证的人群,并用离线稳定性指标和线上业务实验共同证明分群有价值。

评价模型优劣时,传统计量模型和机器学习模型的指标有什么不同,如何按解释性、预测效果和业务风险选择?

这题考察的是数据分析候选人能否区分传统计量模型和机器学习模型的评估目标。传统计量模型更关注解释性、参数显著性、假设检验和残差诊断;机器学习模型更关注样本外预测、泛化能力、过拟合控制和业务损失。优秀回答还要说明不同业务风险下如何选指标。

在 Hive 中有一个城市百万级经纬度数据,如何做空间聚类,并兼顾距离计算、分区分桶、性能和结果验证?

这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案,而不是只说一个算法名。好的回答要先明确聚类目标和距离口径,再选择网格、Geohash、KMeans 或 DBSCAN 等方法,并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离,把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。

DNN 与传统机器学习方法有什么不同?为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势?

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配,但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。

如果要对城市做聚类,会选择哪些特征,如何覆盖供需、地理、用户结构、时段、价格和运营指标?

城市聚类不是把所有城市指标堆进模型,而是先明确聚类用途,再构造可比较的城市级特征,覆盖供需、地理、用户结构、时段、价格和运营表现,并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。

关注页上线新的排序方案时,如何通过 A/B 测试选择更优方案,并设计核心指标、护栏指标和分层分析?

关注页排序方案 A/B 测试要围绕“用户是否更有效消费关注内容”设计指标:核心看关注页消费和互动提升,护栏看负反馈、留存、整体体验、创作者曝光和系统性能,并通过分层分析、显著性检验和长期观察决定是否上线。

同题还出现在 1 个公司岗位

时间序列数据中如何检测异常值?在传感器场景下如何判断当前点是否异常?

这题考时间序列异常检测的系统思维。不能只说 3σ 或箱线图,而要结合趋势、季节性、周期、噪声、传感器物理边界和业务代价。判断当前传感器点是否异常时,应比较它与历史基线、近期窗口、同类传感器、预测区间和物理约束的偏离程度,并区分点异常、上下文异常和持续漂移。

如果 CTR 整体不变但 CVR 下降,数据分析师应如何定位原因?

这道题考察数据分析师的漏斗诊断能力。CTR 稳定但 CVR 下降,说明曝光到点击的吸引力整体没明显变差,但点击后的转化承接、点击人群质量、供给匹配、页面链路、转化回传或流量结构可能出现问题。好答案要先校验数据,再拆漏斗、切分人群、区分结构变化和真实转化率下降。

同一分类器和同一阈值下,测试集正负样本比例从 1:1 变为 1:1000 时,Precision 和 Recall 通常会如何变化,为什么?

在同一分类器、同一阈值、正负类条件分布不变的前提下,Recall 本质上是 TPR,通常基本不随类别先验变化;Precision 强依赖正样本先验,会随着正样本比例从 1:1 降到 1:1000 而大幅下降。回答关键是写出 Precision = π TPR / (π TPR + (1-π) FPR),并说明前提、例外和阈值重调策略。

给定用户 session 曝光或点击序列,如何设计公式衡量推荐内容多样性并用于优化?

这题要求给定用户 session 的曝光或点击序列,设计可计算的推荐内容多样性公式,并说明如何用于优化。高质量答案不应只说“类别越多越好”,而要根据业务内容表示定义多样性:可以从类目覆盖、分布熵、两两相似度、去重率、新颖性、序列相邻差异和用户兴趣覆盖几个角度构造指标。对于 session 序列,常用公式包括 intra-list diversity:`ILD = 1 - average(sim(i,j))`;类别熵:`H = -Σ p_c log p_c`;有效类别数:`exp(H)`;相邻多样性:`1 - average(sim(i_t, i_{t+1}))`。用于优化时不能盲目提高多样性,需要和相关性、CTR/CVR、时长、留存做 trade-off,可在重排阶段加入多样性正则或约束,并用 A/B 验证用户体验和业务指标。

同公司岗位有 2 条面经记录