公司岗位题库

哔哩哔哩 算法面经

11 道题 19 个标签 11 条出现记录

算法工程师相关题目

机器学习模型训练和评估的基本流程是什么?

机器学习模型训练和评估的基本流程,本质是在业务目标约束下,把原始数据转化为可泛化模型,并通过离线验证、线上实验和持续监控判断模型是否真正有效。回答时不能只背训练步骤,还要说明数据质量、切分方式、指标选择、过拟合与数据泄漏控制,以及上线后的反馈闭环。

同题还出现在 2 个公司岗位

推荐系统中做采样后样本分布被改变,点击率预估值应该如何校准?

采样会改变训练样本中的先验点击率,模型在采样分布上学到的概率通常不是线上真实曝光分布的 CTR。回答时要先说明校准目标是把 sampled posterior 还原到 target posterior,再给出 odds/prior correction 公式,并补充用未采样验证集做 Platt、isotonic、温度缩放或分桶校准,最后用可靠性曲线、ECE、Brier/logloss 和线上 A/B 验证。

推荐召回中,为什么可能不用 UserCF,ItemCF 又该如何结合热度信号?

这题考察推荐召回中的协同过滤取舍和热门度信号使用方式。UserCF 不用不代表不懂协同过滤,而可能是业务和工程上的理性选择:用户行为稀疏、用户兴趣变化快、用户相似度计算成本高、相似用户可解释但稳定性差、冷启动和噪声影响大,在大规模内容平台中维护 user-user 相似矩阵往往不如 item-item 稳定。ItemCF 利用“看过同一内容的人还看了什么”建 item-item 相似,物品侧关系相对稳定、可离线预计算、召回延迟低,适合视频/内容推荐召回。但 ItemCF 容易被热门内容支配,所以热度信号不能简单相加放大热门,而要做平滑、去偏、分桶、时间衰减和个性化权重控制。高质量回答要讲清为什么不用 UserCF、ItemCF 相似度如何计算、热度如何作为补充召回或重排序特征、如何避免马太效应,以及如何用离线和在线指标验证。