公司题库

哔哩哔哩面经题库

13 道题 3 个岗位 23 个标签

已解析题目

哔哩哔哩相关面试题

哔哩哔哩 / 算法

PLCC 相关系数是怎么实现的？

PLCC 通常指 Pearson Linear Correlation Coefficient，实现时就是计算预测值和真实值的协方差，再除以两者标准差乘积。它衡量线性相关程度，范围在 -1 到 1。

PLCC 相关系数统计学

哔哩哔哩 / 算法

在B站视频业务的场景下，有哪些可能的挑选特征的方法？

B站视频业务挑选特征，要从业务目标、候选特征池、统计筛选、模型重要性、消融实验、多模态表征和线上验证共同判断，不能只凭相关性或单次离线指标决定。

特征工程推荐系统模型评估

哔哩哔哩 / 算法

从算法工程师的角度，如何预测苏州的房价？

房价预测题考察的是从业务问题到机器学习建模的完整流程。回答要覆盖目标定义、数据来源、特征工程、模型选择、验证方式、误差分析和上线监控。

统计学特征工程模型评估

哔哩哔哩 / 算法

分布式的 slave 和 master 之间如何通信？

master/slave 通信本质上是分布式节点之间的控制面和数据面协作。回答要覆盖心跳、注册发现、任务下发、状态上报、数据同步、故障检测和一致性取舍。

计算机网络分布式系统系统设计

哔哩哔哩 / 算法

DBNet 和 CTC 分别解决 OCR 中的什么问题，核心原理是什么？

这题考 OCR 检测和识别两段核心链路：DBNet 负责把文字区域找出来，CTC 负责在无字符级对齐标注时训练序列识别。

计算机视觉神经网络模型训练

哔哩哔哩 / 算法

XGBoost 是决策树还是回归树，训练过程怎样？

XGBoost 是梯度提升树框架，基学习器通常是 CART 回归树。即使用于分类任务，每棵树的叶子输出也是连续分数，用来拟合当前目标函数的一阶、二阶梯度残差方向。训练过程是逐轮加树，每轮基于当前预测计算梯度统计，枚举分裂点最大化增益，确定树结构和叶子权重，再更新整体预测。

XGBoost GBDT 模型训练

哔哩哔哩 / 算法

机器学习模型训练和评估的基本流程是什么？

机器学习模型训练和评估的基本流程，本质是在业务目标约束下，把原始数据转化为可泛化模型，并通过离线验证、线上实验和持续监控判断模型是否真正有效。回答时不能只背训练步骤，还要说明数据质量、切分方式、指标选择、过拟合与数据泄漏控制，以及上线后的反馈闭环。

同题还出现在 2 个公司岗位

推荐系统模型评估

哔哩哔哩 / 数据分析

关注页上线新的排序方案时，如何通过 A/B 测试选择更优方案，并设计核心指标、护栏指标和分层分析？

关注页排序方案 A/B 测试要围绕“用户是否更有效消费关注内容”设计指标：核心看关注页消费和互动提升，护栏看负反馈、留存、整体体验、创作者曝光和系统性能，并通过分层分析、显著性检验和长期观察决定是否上线。

同题还出现在 1 个公司岗位

A/B 测试推荐系统数据分析产品指标统计学

哔哩哔哩 / 产品

视频推荐中“正能量”标签准确率较低时，产品经理应如何判断它能否进入分发侧，并设计排序策略、指标和风险控制？

这题考产品经理如何处理低准确率标签进入推荐分发的问题。核心不是回答“能用”或“不能用”，而是判断标签在分发链路里的使用层级：低准确率标签不能作为强过滤或强排序依据，但可以在置信度、召回范围、人工校验、负反馈和实验护栏充分的情况下，作为弱特征、探索特征或多目标排序约束。

推荐系统产品管理产品指标业务指标 AI 产品

哔哩哔哩 / 算法

使用 B 站首页时，如果发现推荐内容兴趣发散不足，算法工程师应如何从兴趣探索、模型设计和指标评估分析改进？

这题考 B 站首页推荐里探索不足的系统性分析能力。高质量回答不能只说增加随机推荐，而要从用户多兴趣建模、候选召回、探索策略、重排约束、长期指标和 A/B 实验闭环解释为什么推荐会越刷越窄。

推荐系统数据分析产品指标模型评估

哔哩哔哩 / 算法

推荐系统中做采样后样本分布被改变，点击率预估值应该如何校准？

采样会改变训练样本中的先验点击率，模型在采样分布上学到的概率通常不是线上真实曝光分布的 CTR。回答时要先说明校准目标是把 sampled posterior 还原到 target posterior，再给出 odds/prior correction 公式，并补充用未采样验证集做 Platt、isotonic、温度缩放或分桶校准，最后用可靠性曲线、ECE、Brier/logloss 和线上 A/B 验证。

推荐系统样本不平衡模型评估模型训练

哔哩哔哩 / 算法

推荐召回中，为什么可能不用 UserCF，ItemCF 又该如何结合热度信号？

这题考察推荐召回中的协同过滤取舍和热门度信号使用方式。UserCF 不用不代表不懂协同过滤，而可能是业务和工程上的理性选择：用户行为稀疏、用户兴趣变化快、用户相似度计算成本高、相似用户可解释但稳定性差、冷启动和噪声影响大，在大规模内容平台中维护 user-user 相似矩阵往往不如 item-item 稳定。ItemCF 利用“看过同一内容的人还看了什么”建 item-item 相似，物品侧关系相对稳定、可离线预计算、召回延迟低，适合视频/内容推荐召回。但 ItemCF 容易被热门内容支配，所以热度信号不能简单相加放大热门，而要做平滑、去偏、分桶、时间衰减和个性化权重控制。高质量回答要讲清为什么不用 UserCF、ItemCF 相似度如何计算、热度如何作为补充召回或重排序特征、如何避免马太效应，以及如何用离线和在线指标验证。

推荐系统模型评估特征工程

哔哩哔哩 / 算法

OCR 检测阶段遇到相邻或重叠文字时，如何分离文字区域，并与识别和后处理链路联动？

这道题考察 OCR 检测阶段对相邻或重叠文字的实例分离能力。好的回答要从检测表示、后处理、识别反馈和业务规则联动，而不是只说调阈值。

计算机视觉 OCR 问题排查