统计学面试题解析

这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案，而不是只说一个算法名。好的回答要先明确聚类目标和距离口径，再选择网格、Geohash、KMeans 或 DBSCAN 等方法，并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离，把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。

数据分析统计学特征工程可扩展性模型评估

百度 / 算法

DNN 与传统机器学习方法有什么不同？为什么深度网络在表示学习、端到端训练和复杂数据建模上更有优势？

这题要比较 DNN 和传统机器学习在特征表达、训练方式、数据需求、泛化风险和工程落地上的差异。DNN 的优势主要来自表示学习、层次化非线性组合、端到端优化和对图像、语音、文本等复杂数据的适配，但它不是所有场景都优于传统方法。好的回答要同时讲清楚传统模型在小数据、结构化表格、可解释性、训练成本和稳定性上的优势。

神经网络特征工程模型训练模型评估统计学

滴滴 / 数据分析

如果要对城市做聚类，会选择哪些特征，如何覆盖供需、地理、用户结构、时段、价格和运营指标？

城市聚类不是把所有城市指标堆进模型，而是先明确聚类用途，再构造可比较的城市级特征，覆盖供需、地理、用户结构、时段、价格和运营表现，并通过标准化、降维、稳定性检验和业务解释验证分群是否可用。

数据分析特征工程业务指标模型评估统计学

滴滴 / 数据分析

如何向非技术同学解释因果推断和相关分析的差异，并用出行定价策略举例？

相关分析回答的是两个现象是否一起变化，因果推断回答的是如果主动改变价格策略会造成什么结果；在出行定价中，关键是识别混杂因素、设计对照、估计干预效果，并用业务同学能理解的语言解释不应把相关当因果。

因果推断数据分析业务指标统计学产品指标

哔哩哔哩 / 数据分析

关注页上线新的排序方案时，如何通过 A/B 测试选择更优方案，并设计核心指标、护栏指标和分层分析？

关注页排序方案 A/B 测试要围绕“用户是否更有效消费关注内容”设计指标：核心看关注页消费和互动提升，护栏看负反馈、留存、整体体验、创作者曝光和系统性能，并通过分层分析、显著性检验和长期观察决定是否上线。

同题还出现在 1 个公司岗位

A/B 测试推荐系统数据分析产品指标统计学

美团 / 数据分析

时间序列数据中如何检测异常值？在传感器场景下如何判断当前点是否异常？

这题考时间序列异常检测的系统思维。不能只说 3σ 或箱线图，而要结合趋势、季节性、周期、噪声、传感器物理边界和业务代价。判断当前传感器点是否异常时，应比较它与历史基线、近期窗口、同类传感器、预测区间和物理约束的偏离程度，并区分点异常、上下文异常和持续漂移。

统计学数据分析异常值模型评估业务指标

拼多多 / 数据分析

作为数据分析师，遇到辛普森悖论导致汇总数据和分层数据结论相反时，应如何判断和处理？

这题考辛普森悖论下的数据判断能力，重点不是机械选择汇总或分层，而是先确认业务问题、分层变量是否为混杂因素，再用因果和实验思路给出可执行结论。

数据分析统计学业务指标 A/B 测试因果推断

字节跳动 / 数据分析

如何通俗解释“统计不显著”是什么意思？

这题考统计显著性的通俗解释，重点是说明“不显著不等于没效果”，而是当前样本证据不足以排除随机波动。

统计学 A/B 测试数据分析模型评估业务指标

字节跳动 / 数据分析

多变量回归结果好不好，应该看哪些指标和诊断结果？

这题考多变量回归的完整评估框架，不能只说 R²，而要从拟合优度、泛化误差、变量显著性、模型假设、共线性和业务解释一起判断。

统计学数据分析模型评估业务指标因果推断

百度 / 算法

机器学习中的偏差和方差分别指什么，如何判断并降低它们？

这题考偏差-方差分解和模型泛化诊断，重点是能用欠拟合、过拟合、训练/验证误差曲线解释问题，并给出对应降低方法。

算法统计学模型评估模型训练

字节跳动 / 数据分析

如果 CTR 整体不变但 CVR 下降，数据分析师应如何定位原因？

这道题考察数据分析师的漏斗诊断能力。CTR 稳定但 CVR 下降，说明曝光到点击的吸引力整体没明显变差，但点击后的转化承接、点击人群质量、供给匹配、页面链路、转化回传或流量结构可能出现问题。好答案要先校验数据，再拆漏斗、切分人群、区分结构变化和真实转化率下降。

数据分析业务指标产品指标统计学

蚂蚁集团 / 数据分析

DBSCAN 的原理是什么？如何用伪代码描述其聚类过程？

这道题考察 DBSCAN 的密度聚类思想和过程表达能力。核心是用 eps 邻域和 minPts 定义核心点、边界点和噪声点，从核心点出发把密度可达的点扩展成簇；它不需要预先指定簇数，能发现任意形状簇和离群点，但对参数、距离度量和密度差异敏感。

算法统计学数据分析模型评估

字节跳动 / 数据分析

如何基于历史数据预测 60 天后的 DAU？

这题考数据分析师如何把“预测 60 天后的 DAU”做成严谨的时间序列和业务预测问题。高质量回答要覆盖目标口径、历史数据、特征、模型、验证、预测区间、业务事件和可解释交付。

数据分析业务指标统计学模型评估

微博 / 算法

同一分类器和同一阈值下，测试集正负样本比例从 1:1 变为 1:1000 时，Precision 和 Recall 通常会如何变化，为什么？

在同一分类器、同一阈值、正负类条件分布不变的前提下，Recall 本质上是 TPR，通常基本不随类别先验变化；Precision 强依赖正样本先验，会随着正样本比例从 1:1 降到 1:1000 而大幅下降。回答关键是写出 Precision = π TPR / (π TPR + (1-π) FPR)，并说明前提、例外和阈值重调策略。

样本不平衡模型评估统计学

字节跳动 / 算法

给定用户 session 曝光或点击序列，如何设计公式衡量推荐内容多样性并用于优化？

这题要求给定用户 session 的曝光或点击序列，设计可计算的推荐内容多样性公式，并说明如何用于优化。高质量答案不应只说“类别越多越好”，而要根据业务内容表示定义多样性：可以从类目覆盖、分布熵、两两相似度、去重率、新颖性、序列相邻差异和用户兴趣覆盖几个角度构造指标。对于 session 序列，常用公式包括 intra-list diversity：`ILD = 1 - average(sim(i,j))`；类别熵：`H = -Σ p_c log p_c`；有效类别数：`exp(H)`；相邻多样性：`1 - average(sim(i_t, i_{t+1}))`。用于优化时不能盲目提高多样性，需要和相关性、CTR/CVR、时长、留存做 trade-off，可在重排阶段加入多样性正则或约束，并用 A/B 验证用户体验和业务指标。

同公司岗位有 2 条面经记录

推荐系统模型评估产品指标统计学

腾讯 / 数据分析