GBDT 面试题解析｜面试大师

标签题目

GBDT相关面试题

百度 / 算法

GBDT 的实现流程是什么？

GBDT 的实现流程是不断训练回归树去拟合当前模型的负梯度或残差，并把新树按学习率累加到集成模型中。回答时要讲清初始化、计算伪残差、建树、叶子权重、模型更新和停止条件。

GBDT 模型训练算法

滴滴 / 算法

XGBoost 为什么比传统 GBDT 快？

XGBoost 比传统 GBDT 快，主要来自工程和算法两方面优化：二阶近似、预排序或直方图、稀疏感知、列块并行、缓存友好访问、正则化剪枝和分布式训练。回答要避免只说“并行”，因为 boosting 的树轮次本身仍然有依赖。

XGBoost GBDT 性能排查

哔哩哔哩 / 算法

XGBoost 是决策树还是回归树，训练过程怎样？

XGBoost 是梯度提升树框架，基学习器通常是 CART 回归树。即使用于分类任务，每棵树的叶子输出也是连续分数，用来拟合当前目标函数的一阶、二阶梯度残差方向。训练过程是逐轮加树，每轮基于当前预测计算梯度统计，枚举分裂点最大化增益，确定树结构和叶子权重，再更新整体预测。

XGBoost GBDT 模型训练

美团 / 算法

XGBoost 主要缓解偏差还是方差问题？它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化？

这题的标准回答不是简单选偏差或方差，而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差，同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制，并结合验证集曲线判断模型是在欠拟合还是过拟合。

XGBoost GBDT 正则化模型训练模型评估

360 / 算法

推荐排序中，LGB 点击率预估与 LambdaMART 这类 pairwise 排序模型应如何选型？

这题考察的是推荐排序模型目标与业务阶段的匹配。LGB 做点击率预估通常是 pointwise 思路：把每个曝光样本建成点击/不点击标签，预测 pCTR 或相关概率，优点是训练样本构造简单、可解释、工程成熟、延迟低、支持非线性特征组合，对稀疏表格特征和中小规模排序链路很实用；缺点是优化目标和最终排序指标 NDCG/MAP 不完全一致，也可能受曝光位置偏差和样本校准影响。LambdaMART 属于 learning-to-rank，常用 pairwise/listwise 的梯度思想直接优化排序相关指标，适合有 query/session/list 结构、强相对排序标签和 TopK 质量目标的场景；但它对样本分组、标签质量、训练成本、在线 serving、增量更新和校准都有更高要求。选型不能说谁绝对更好，而要看目标是概率预估、广告/推荐价值计算、可校准 CTR，还是列表相对顺序和 NDCG 提升。

推荐系统模型评估 GBDT