知识点标签

GBDT 面试题解析

GBDT 相关面试题,覆盖梯度提升、树模型、残差拟合和实现流程。

5 道题 1 个岗位 5 个公司

GBDT相关面试题

XGBoost 主要缓解偏差还是方差问题?它如何通过 Boosting、正则化、Shrinkage、采样和树结构约束影响泛化?

这题的标准回答不是简单选偏差或方差,而是说明 Boosting 主体上通过逐轮拟合残差或负梯度降低偏差,同时 XGBoost 又用正则化、Shrinkage、采样、树深限制和早停来控制方差。回答要能讲出二阶梯度、叶子权重、分裂增益、复杂度惩罚等机制,并结合验证集曲线判断模型是在欠拟合还是过拟合。

推荐排序中,LGB 点击率预估与 LambdaMART 这类 pairwise 排序模型应如何选型?

这题考察的是推荐排序模型目标与业务阶段的匹配。LGB 做点击率预估通常是 pointwise 思路:把每个曝光样本建成点击/不点击标签,预测 pCTR 或相关概率,优点是训练样本构造简单、可解释、工程成熟、延迟低、支持非线性特征组合,对稀疏表格特征和中小规模排序链路很实用;缺点是优化目标和最终排序指标 NDCG/MAP 不完全一致,也可能受曝光位置偏差和样本校准影响。LambdaMART 属于 learning-to-rank,常用 pairwise/listwise 的梯度思想直接优化排序相关指标,适合有 query/session/list 结构、强相对排序标签和 TopK 质量目标的场景;但它对样本分组、标签质量、训练成本、在线 serving、增量更新和校准都有更高要求。选型不能说谁绝对更好,而要看目标是概率预估、广告/推荐价值计算、可校准 CTR,还是列表相对顺序和 NDCG 提升。