已解析题目
哔哩哔哩相关面试题
PLCC 相关系数是怎么实现的?
PLCC 通常指 Pearson Linear Correlation Coefficient,实现时就是计算预测值和真实值的协方差,再除以两者标准差乘积。它衡量线性相关程度,范围在 -1 到 1。
在B站视频业务的场景下,有哪些可能的挑选特征的方法?
B站视频业务挑选特征,要从业务目标、候选特征池、统计筛选、模型重要性、消融实验、多模态表征和线上验证共同判断,不能只凭相关性或单次离线指标决定。
从算法工程师的角度,如何预测苏州的房价?
房价预测题考察的是从业务问题到机器学习建模的完整流程。回答要覆盖目标定义、数据来源、特征工程、模型选择、验证方式、误差分析和上线监控。
分布式的 slave 和 master 之间如何通信?
master/slave 通信本质上是分布式节点之间的控制面和数据面协作。回答要覆盖心跳、注册发现、任务下发、状态上报、数据同步、故障检测和一致性取舍。
DBNet 和 CTC 分别解决 OCR 中的什么问题,核心原理是什么?
这题考 OCR 检测和识别两段核心链路:DBNet 负责把文字区域找出来,CTC 负责在无字符级对齐标注时训练序列识别。
XGBoost 是决策树还是回归树,训练过程怎样?
XGBoost 是梯度提升树框架,基学习器通常是 CART 回归树。即使用于分类任务,每棵树的叶子输出也是连续分数,用来拟合当前目标函数的一阶、二阶梯度残差方向。训练过程是逐轮加树,每轮基于当前预测计算梯度统计,枚举分裂点最大化增益,确定树结构和叶子权重,再更新整体预测。
机器学习模型训练和评估的基本流程是什么?
机器学习模型训练和评估的基本流程,本质是在业务目标约束下,把原始数据转化为可泛化模型,并通过离线验证、线上实验和持续监控判断模型是否真正有效。回答时不能只背训练步骤,还要说明数据质量、切分方式、指标选择、过拟合与数据泄漏控制,以及上线后的反馈闭环。
同题还出现在 2 个公司岗位
关注页上线新的排序方案时,如何通过 A/B 测试选择更优方案,并设计核心指标、护栏指标和分层分析?
关注页排序方案 A/B 测试要围绕“用户是否更有效消费关注内容”设计指标:核心看关注页消费和互动提升,护栏看负反馈、留存、整体体验、创作者曝光和系统性能,并通过分层分析、显著性检验和长期观察决定是否上线。
同题还出现在 1 个公司岗位
视频推荐中“正能量”标签准确率较低时,产品经理应如何判断它能否进入分发侧,并设计排序策略、指标和风险控制?
这题考产品经理如何处理低准确率标签进入推荐分发的问题。核心不是回答“能用”或“不能用”,而是判断标签在分发链路里的使用层级:低准确率标签不能作为强过滤或强排序依据,但可以在置信度、召回范围、人工校验、负反馈和实验护栏充分的情况下,作为弱特征、探索特征或多目标排序约束。
使用 B 站首页时,如果发现推荐内容兴趣发散不足,算法工程师应如何从兴趣探索、模型设计和指标评估分析改进?
这题考 B 站首页推荐里探索不足的系统性分析能力。高质量回答不能只说增加随机推荐,而要从用户多兴趣建模、候选召回、探索策略、重排约束、长期指标和 A/B 实验闭环解释为什么推荐会越刷越窄。
推荐系统中做采样后样本分布被改变,点击率预估值应该如何校准?
采样会改变训练样本中的先验点击率,模型在采样分布上学到的概率通常不是线上真实曝光分布的 CTR。回答时要先说明校准目标是把 sampled posterior 还原到 target posterior,再给出 odds/prior correction 公式,并补充用未采样验证集做 Platt、isotonic、温度缩放或分桶校准,最后用可靠性曲线、ECE、Brier/logloss 和线上 A/B 验证。
推荐召回中,为什么可能不用 UserCF,ItemCF 又该如何结合热度信号?
这题考察推荐召回中的协同过滤取舍和热门度信号使用方式。UserCF 不用不代表不懂协同过滤,而可能是业务和工程上的理性选择:用户行为稀疏、用户兴趣变化快、用户相似度计算成本高、相似用户可解释但稳定性差、冷启动和噪声影响大,在大规模内容平台中维护 user-user 相似矩阵往往不如 item-item 稳定。ItemCF 利用“看过同一内容的人还看了什么”建 item-item 相似,物品侧关系相对稳定、可离线预计算、召回延迟低,适合视频/内容推荐召回。但 ItemCF 容易被热门内容支配,所以热度信号不能简单相加放大热门,而要做平滑、去偏、分桶、时间衰减和个性化权重控制。高质量回答要讲清为什么不用 UserCF、ItemCF 相似度如何计算、热度如何作为补充召回或重排序特征、如何避免马太效应,以及如何用离线和在线指标验证。
OCR 检测阶段遇到相邻或重叠文字时,如何分离文字区域,并与识别和后处理链路联动?
这道题考察 OCR 检测阶段对相邻或重叠文字的实例分离能力。好的回答要从检测表示、后处理、识别反馈和业务规则联动,而不是只说调阈值。