推荐系统面试题解析｜面试大师

标签题目

AI 如何识别新开业或小众优质商家的成长潜力？

这题考 AI 如何识别新开业或小众优质商家的成长潜力，回答重点是定义潜力、补足冷启动信号、小流量验证、商家成长机会和公平评估。

AI 产品产品管理推荐系统业务指标用户增长

字节跳动 / 后端开发

公开群聊搜索排序如何设计，如何结合群名称/内容相关性、活跃度、用户兴趣、质量安全和多样性信号决定排名？

这题考搜索排序系统设计：候选人要能从召回、相关性、质量安全、个性化、多样性和评估指标出发，设计公开群聊搜索的排名策略。

AI 搜索搜索产品推荐系统特征工程系统设计

字节跳动 / 后端开发

给定群聊数据表，如何为公开搜索排序设计群聊特征提取系统，并从 UID、群主、兴趣、活跃度等字段构建可用特征？

这题考特征工程和数据系统设计：要能把原始群聊表变成可供搜索排序使用的群、用户、群主、兴趣、活跃度、质量和实时特征，并保证一致性、可解释性和可监控。

特征工程 AI 搜索推荐系统系统设计数据分析

美团 / 算法

推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模？

这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明：Transformer 适合把用户历史行为编码成带上下文的序列表征，DIN 的价值在于针对当前候选物品做 target-aware attention；工程上不能只拿一个全局向量，要处理时间因果、候选量、缓存、延迟和线上线下一致。

推荐系统 Transformer 注意力机制 Embedding 模型训练

美团 / 算法

推荐系统中的用户画像和特征工程如何实现，怎样保证训练样本与线上特征口径一致？

这道题考察推荐特征工程的体系化能力。好答案不只是列画像字段，而要说明画像分层、特征定义、时间窗口、训练样本构造、线上读取、point-in-time correctness、特征平台复用和训练服务一致性，否则很容易出现泄漏、口径漂移和线上效果回退。

推荐系统特征工程模型训练模型评估

百度 / 算法

推荐系统多路召回的候选分数能直接相加吗，如何做归一化、配额和融合？

这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义：cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。

推荐系统模型评估可扩展性特征工程

百度 / 算法

推荐召回中 Word2Vec 召回具体怎么做，训练样本和近邻检索如何设计？

这道题考察 item2vec 召回的完整链路。好答案要从行为序列构造、样本窗口、负采样、向量训练、ANN 建索引、线上 seed 扩展、过滤去重、融合排序和指标验证讲起，而不是只说用 Word2Vec 算相似 item。

同题还出现在 1 个公司岗位

推荐系统 Embedding 向量数据库模型训练

百度 / 算法

推荐系统里的基于深度模型召回怎么做，如何与 ItemCF 或 Word2Vec 召回配合？

这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量，如何用 ANN 服务大规模候选，如何与 ItemCF、Word2Vec 等通道互补，以及负样本、偏差、版本、索引和指标如何治理。

推荐系统 Embedding 向量数据库神经网络可扩展性

百度 / 算法

推荐排序阶段通常使用哪些特征，如何划分用户、物品、上下文和交叉特征并保证线上线下一致？

这道题考察推荐排序阶段的特征体系。好答案要把用户、物品、上下文和交叉特征讲清楚，并进一步说明统计特征的时间截断、实时/近线/离线更新、训练服务一致性、特征监控和模型指标，否则容易停留在简单枚举。

推荐系统特征工程模型训练模型评估

Cider / 算法

电商 App 中的 AI 穿搭推荐功能应如何设计整体流程，并从数据来源、模型链路和效果评估上落地？

这道题考 AI 推荐系统设计，重点不是只说“训练一个推荐模型”，而是把商品图文、用户偏好、穿搭兼容性、业务约束、线上反馈和评估闭环串起来。

推荐系统 AI 产品特征工程模型评估多模态学习

Cider / 算法

在商品库中如何快速找出相似商品描述，倒排索引、向量召回和 ANN 检索各适合什么场景？

这道题考商品文本检索的工程设计。好答案要先定义“相似”是近重复、同款、替代品还是语义相关，再比较倒排索引、向量召回和 ANN 的机制、成本、召回质量、实时更新和线上评估。

AI 搜索向量数据库 Embedding 推荐系统模型评估

联想 / 产品

面向 3C 数码产品推荐的 AI workflow 应如何设计，才能从用户输入生成可用推荐结果？

这题考 AI 产品经理能否把 3C 推荐从聊天式建议设计成可控 workflow：采集预算、场景、偏好和约束，检索结构化商品库与实时价格库存，用规则/模型排序，再由 LLM 生成可解释对比，并用转化、满意度、退货、缺货和事实错误闭环。

工作流推荐系统大语言模型业务指标产品管理

小红书 / 产品

商业化产品中，用户画像如何用于个性化推荐，并如何平衡推荐效果与用户隐私保护？

用户画像在商业化产品中的作用，是把用户行为、兴趣、消费意图和场景偏好转化为可用于广告定向、内容推荐、商品匹配和效果优化的产品能力。但商业化不能只追求点击率和转化率，还必须遵守隐私保护、最小必要、透明可控、数据安全和用户信任原则。回答要同时覆盖推荐效果和隐私治理。

产品管理广告产品推荐系统隐私保护业务指标

腾讯 / 产品

长视频内容推荐和短视频推荐有什么不同，产品层面如何辅助算法让用户更高效找到喜欢的长视频？

这题考的是候选人能否理解长视频推荐与短视频推荐的核心差异，并从产品机制上补足算法在意图识别、决策成本、反馈稀疏和内容组织上的不足。

推荐系统产品管理 AI 产品产品指标音视频

拼多多 / 数据分析

从数据分析角度，推荐模块应如何用指标衡量效果，如何覆盖曝光、点击、转化、留存、GMV、供需和长期体验？

这题考数据分析师能否为推荐模块搭建完整指标体系：既覆盖曝光点击转化，也能解释 GMV、供需、用户体验和长期留存，而不是只报 CTR。

推荐系统数据分析产品指标业务指标模型评估

拼多多 / 数据分析

面对羊毛党，推荐模块应如何识别风险、调整排序策略并兼顾平台转化和正常用户体验？

这题考的是数据分析师能否把羊毛党问题放到推荐系统里处理：既识别风险和控制补贴损失，也避免误伤正常用户和损害推荐体验。

推荐系统数据分析业务指标产品指标

小红书 / 产品运营

对比抖音的算法推荐，小红书的兴趣分发机制可以从哪些方面优化用户体验？

这题考产品运营能否把兴趣分发和短视频算法推荐区分开，并围绕社区信任、内容发现、搜索决策和长期兴趣管理提出体验优化。

推荐系统 AI 产品产品管理产品指标数据分析

哔哩哔哩 / 数据分析

关注页上线新的排序方案时，如何通过 A/B 测试选择更优方案，并设计核心指标、护栏指标和分层分析？

关注页排序方案 A/B 测试要围绕“用户是否更有效消费关注内容”设计指标：核心看关注页消费和互动提升，护栏看负反馈、留存、整体体验、创作者曝光和系统性能，并通过分层分析、显著性检验和长期观察决定是否上线。

同题还出现在 1 个公司岗位

A/B 测试推荐系统数据分析产品指标统计学

滴滴 / 后端开发

已有一百万个关键词时，如何设计输入联想推荐，支持前缀匹配、热度排序、更新、内存控制和低延迟返回？

一百万关键词的输入联想可以用 Trie/压缩 Trie/FST 或有序数组前缀检索做候选召回，再用每个前缀的 TopK 热词缓存、实时热度增量、敏感过滤和多级缓存实现低延迟、可更新、可控内存的推荐服务。

数据结构搜索产品可扩展性推荐系统性能排查

哔哩哔哩 / 产品

视频推荐中“正能量”标签准确率较低时，产品经理应如何判断它能否进入分发侧，并设计排序策略、指标和风险控制？

这题考产品经理如何处理低准确率标签进入推荐分发的问题。核心不是回答“能用”或“不能用”，而是判断标签在分发链路里的使用层级：低准确率标签不能作为强过滤或强排序依据，但可以在置信度、召回范围、人工校验、负反馈和实验护栏充分的情况下，作为弱特征、探索特征或多目标排序约束。

推荐系统产品管理产品指标业务指标 AI 产品

快手 / 商业分析

从商业分析视角，优化快手广告推荐算法的分析框架是什么？如何平衡广告相关性和用户体验？

这题考商业分析师能否把广告推荐算法优化讲成业务目标、用户体验和实验验证共同约束的问题。高质量回答不能只说提升 CTR 或 eCPM，而要从广告链路、指标树、用户负反馈、广告主 ROI、长期留存和平台商业化边界出发。

推荐系统广告商业分析业务指标商业化

快手 / 算法

SIM 在推荐系统长序列兴趣建模中改进了什么问题？

这题考推荐系统长序列兴趣建模的核心矛盾。SIM 改进的问题不是多任务学习本身，而是传统 DIN/DIEN 等模型通常只能使用较短历史行为，直接建模超长序列又计算重、噪声多、目标相关性弱。

推荐系统算法模型训练 Embedding

哔哩哔哩 / 算法

使用 B 站首页时，如果发现推荐内容兴趣发散不足，算法工程师应如何从兴趣探索、模型设计和指标评估分析改进？

这题考 B 站首页推荐里探索不足的系统性分析能力。高质量回答不能只说增加随机推荐，而要从用户多兴趣建模、候选召回、探索策略、重排约束、长期指标和 A/B 实验闭环解释为什么推荐会越刷越窄。

推荐系统数据分析产品指标模型评估

哔哩哔哩 / 算法

推荐系统中做采样后样本分布被改变，点击率预估值应该如何校准？

采样会改变训练样本中的先验点击率，模型在采样分布上学到的概率通常不是线上真实曝光分布的 CTR。回答时要先说明校准目标是把 sampled posterior 还原到 target posterior，再给出 odds/prior correction 公式，并补充用未采样验证集做 Platt、isotonic、温度缩放或分桶校准，最后用可靠性曲线、ECE、Brier/logloss 和线上 A/B 验证。

推荐系统样本不平衡模型评估模型训练

美团 / 算法

DCN 和 DeepFM 的特征交叉机制有什么异同？

DCN 和 DeepFM 都用于稀疏特征推荐排序，都试图同时建模低阶和高阶交叉。DeepFM 用 FM 显式建模二阶 pairwise 交叉，再用 DNN 隐式学习高阶非线性交叉；DCN 用 cross network 递推地把原始特征 x0 与当前层 xl 做显式交叉，得到有界阶数的多项式交叉。回答重点是公式、显式/隐式、交叉阶数、参数效率、可解释性和工程选型。

推荐系统特征工程模型训练神经网络

美团 / 算法

推荐系统中多任务学习有哪些常见结构，PLE 主要优化了共享底座或 MMoE 的哪些问题？

推荐多任务常见结构包括 hard parameter sharing/shared-bottom、独立塔、ESMM、soft sharing、MMoE、PLE 等。核心矛盾是任务相关性不均、梯度冲突、负迁移、任务跷跷板和样本空间差异。PLE 在共享专家之外引入任务专属专家，并通过多层 CGC/门控逐层抽取 shared 与 task-specific 表征，主要缓解 shared-bottom 的过度共享和 MMoE 的专家混用、任务干扰问题。

推荐系统模型训练模型评估神经网络

字节跳动 / 算法

推荐模型离线 AUC 与线上效果不一致时，可能有哪些原因，如何定位和修正？

离线 AUC 与线上效果不一致通常不是单点问题，而是数据分布、样本构造、标签口径、特征一致性、评估指标、候选集、系统链路和实验统计共同造成。回答要先说明 AUC 衡量 P(score_pos > score_neg)，不等于线上业务收益；再按数据、模型、评估、服务、实验五层排查，并给出 replay、shadow scoring、切片、A/A、A/B 和监控修正路径。

推荐系统模型评估样本不平衡模型训练

字节跳动 / 算法

推荐或广告系统新增一路召回后，如何评估这一路召回的效果、效率和 ROI？

新增一路召回不能只看“这路召回了多少 item”或“命中了多少点击”，因为多路召回存在去重、排序、预算竞争和归因稀释。高质量回答要把评估拆成效果、效率、增量价值和 ROI 四层：效果看覆盖率、命中率、后链路采纳、排序后曝光/点击/转化贡献；效率看召回耗时、QPS、CPU/GPU/内存、索引成本、去重后有效候选率；增量价值看相对 baseline 的新增好样本、新增人群、新增广告主/商品覆盖，以及 A/B 中核心业务指标提升；ROI 则用增量收益减增量成本，或增量 GMV/广告收入/利润除以系统和维护成本。回答时要强调离线只能做候选筛查，最终要靠在线实验和归因方法判断是否值得长期保留。

推荐系统广告产品模型评估业务指标 A/B 测试

美团 / 算法

主场景数据充足但抢购等小样本场景 CTR/CVR 分布不同，推荐模型如何用增量学习或 PPNet 做适配？

这题的关键是小样本场景不是简单“数据少”，而是抢购等场景的用户意图、价格敏感度、库存稀缺、时间压力和 CTR/CVR 分布都与主场景不同。只用主场景大数据训练一个统一模型，容易在小场景上校准偏、排序目标错或过度拟合主场景。可行方案包括增量学习、样本重加权、多任务/多场景建模、场景特征注入和 PPNet。PPNet 的核心是用场景/人群/上下文作为 gating 或 personalized parameter generator，对底层网络的 hidden units 或专家输出做个性化缩放，让主模型共享大样本知识，小场景通过参数调制适配分布差异。回答还要覆盖数据构造、冷启动、负迁移、校准、在线 A/B 和防遗忘。

推荐系统模型训练特征工程模型评估业务指标

美团 / 算法

推荐系统中用召回模型蒸馏粗排模型时，如何评价蒸馏后的召回效果？

这题考察召回模型蒸馏粗排模型后的评价方法。核心在于区分“学生模型是否拟合了粗排老师”和“蒸馏后的召回是否真的更好”。召回蒸馏粗排通常是把粗排模型对候选的打分、排序关系或 top item 偏好迁移到召回侧，使召回阶段更早拿到高质量候选。但评价不能只看蒸馏 loss 或 teacher-student 分数相关性，因为召回的职责是从海量 item 中找回后链路需要的候选。高质量答案应覆盖：离线召回指标、与 teacher 排序一致性、下游粗排/精排漏斗贡献、系统性能成本、在线 A/B 以及失败模式，如过度模仿粗排导致多样性下降、覆盖变窄、训练候选偏差和 teacher 错误被放大。

推荐系统模型训练模型评估 A/B 测试

字节跳动 / 算法

给定用户 session 曝光或点击序列，如何设计公式衡量推荐内容多样性并用于优化？

这题要求给定用户 session 的曝光或点击序列，设计可计算的推荐内容多样性公式，并说明如何用于优化。高质量答案不应只说“类别越多越好”，而要根据业务内容表示定义多样性：可以从类目覆盖、分布熵、两两相似度、去重率、新颖性、序列相邻差异和用户兴趣覆盖几个角度构造指标。对于 session 序列，常用公式包括 intra-list diversity：`ILD = 1 - average(sim(i,j))`；类别熵：`H = -Σ p_c log p_c`；有效类别数：`exp(H)`；相邻多样性：`1 - average(sim(i_t, i_{t+1}))`。用于优化时不能盲目提高多样性，需要和相关性、CTR/CVR、时长、留存做 trade-off，可在重排阶段加入多样性正则或约束，并用 A/B 验证用户体验和业务指标。

同公司岗位有 2 条面经记录

推荐系统模型评估产品指标统计学

美团 / 算法

在 OCPX 广告系统中，bid 出价如何参与广告混排，混排逻辑应放在排序侧还是出价侧？

这题的核心是广告系统里“出价”和“排序/混排”的职责边界。OCPX 中 bid 不只是广告主手填的静态价格，而是围绕优化目标、转化率预估、预算消耗、约束和平台机制形成的有效出价信号；它最终要进入广告候选的价值计算，例如 eCPM、pCTR、pCVR、bid、质量分、用户体验和业务约束的组合。混排不是由出价侧单独决定，也不应该完全脱离出价信号放在推荐排序里随意处理。更合理的边界是：出价侧负责把广告主目标、预算、CPA/ROI 约束和竞价机制转换成可解释、可控、可校准的 bid 或 value 信号；排序/混排侧负责在用户请求上下文中融合广告和自然内容，综合收益、相关性、体验、多样性、频控和商业约束做最终排序。广告混排逻辑通常更靠近排序/混排侧，但需要消费出价侧产出的价值信号，并把曝光、点击、转化和消耗反馈回出价系统形成闭环。

广告推荐系统模型评估

360 / 算法

推荐排序中，LGB 点击率预估与 LambdaMART 这类 pairwise 排序模型应如何选型？

这题考察的是推荐排序模型目标与业务阶段的匹配。LGB 做点击率预估通常是 pointwise 思路：把每个曝光样本建成点击/不点击标签，预测 pCTR 或相关概率，优点是训练样本构造简单、可解释、工程成熟、延迟低、支持非线性特征组合，对稀疏表格特征和中小规模排序链路很实用；缺点是优化目标和最终排序指标 NDCG/MAP 不完全一致，也可能受曝光位置偏差和样本校准影响。LambdaMART 属于 learning-to-rank，常用 pairwise/listwise 的梯度思想直接优化排序相关指标，适合有 query/session/list 结构、强相对排序标签和 TopK 质量目标的场景；但它对样本分组、标签质量、训练成本、在线 serving、增量更新和校准都有更高要求。选型不能说谁绝对更好，而要看目标是概率预估、广告/推荐价值计算、可校准 CTR，还是列表相对顺序和 NDCG 提升。

推荐系统模型评估 GBDT

哔哩哔哩 / 算法

推荐召回中，为什么可能不用 UserCF，ItemCF 又该如何结合热度信号？

这题考察推荐召回中的协同过滤取舍和热门度信号使用方式。UserCF 不用不代表不懂协同过滤，而可能是业务和工程上的理性选择：用户行为稀疏、用户兴趣变化快、用户相似度计算成本高、相似用户可解释但稳定性差、冷启动和噪声影响大，在大规模内容平台中维护 user-user 相似矩阵往往不如 item-item 稳定。ItemCF 利用“看过同一内容的人还看了什么”建 item-item 相似，物品侧关系相对稳定、可离线预计算、召回延迟低，适合视频/内容推荐召回。但 ItemCF 容易被热门内容支配，所以热度信号不能简单相加放大热门，而要做平滑、去偏、分桶、时间衰减和个性化权重控制。高质量回答要讲清为什么不用 UserCF、ItemCF 相似度如何计算、热度如何作为补充召回或重排序特征、如何避免马太效应，以及如何用离线和在线指标验证。

推荐系统模型评估特征工程

腾讯 / 算法

ItemCF 召回中如何引入时间间隔和位置间隔信息来改进相似度计算？

这道题考察的是候选人能否把 ItemCF 从“共同被同一用户交互过就相似”的朴素共现，升级成考虑用户行为序列和时间上下文的召回方法。时间间隔表达两个物品是否在接近的兴趣周期内被消费，位置间隔表达它们在用户序列中是否相邻或有方向性。好的回答要从 ItemCF 基础相似度公式出发，说明在共现贡献项里乘上时间衰减和位置衰减，再配合用户活跃度归一化、物品热度惩罚、会话切分、方向性建模、离线召回评估和线上指标护栏。重点不是背一个固定公式，而是说明为什么这些权重能降低偶然共现和长周期兴趣漂移带来的噪声。

推荐系统特征工程模型评估

腾讯 / 算法

基于商品属性 Embedding 的推荐召回如何设计，如何处理属性特征、向量索引和冷启动？

这道题考察的是候选人能否把“商品属性 Embedding”从一个模糊向量概念，拆成一条完整召回链路。商品属性包括类目、品牌、价格带、标签、文本描述、图片特征、商家、地域、质量分等结构化和非结构化信息。设计时要先定义属性 schema 和清洗规则，再把稀疏属性编码成 item embedding，构建 ANN 向量索引，在线用用户画像、最近行为或 query embedding 召回相似商品，并处理过滤、去重、冷启动、实时更新和效果评估。好的回答要强调它适合新商品、长尾商品和行为稀疏场景，但不能完全替代协同过滤；属性相似不等于用户会转化，仍需要后续排序和实验验证。

推荐系统 Embedding 特征工程向量数据库

腾讯 / 算法

推荐系统新增一路召回后，排序阶段需要做哪些特征接入、分数校准和模型训练改造？

这道题考察的是候选人是否理解推荐系统是召回、排序、重排和实验闭环的整体系统。新增一路召回不是把候选直接塞给排序模型就结束，因为新召回源会带来候选分布变化、分数口径不一致、样本覆盖不足、特征缺失、去重归因复杂、线上配额和延迟变化。排序阶段至少要接入召回源特征、补齐候选侧特征、处理新旧渠道分数校准、更新训练样本和负采样、监控不同来源的排序表现，并通过 A/B 验证用户指标、业务指标和系统成本。回答的关键是把新增召回后的排序改造讲成“分布变化治理”，而不是只说模型重新训练。

推荐系统特征工程模型评估 A/B 测试

美团 / 算法

用户增长算法与传统搜索、广告、推荐算法在目标、数据、模型和评估指标上有什么区别？

这道题考察的是候选人能否跳出搜广推常见的 CTR、CVR 预估框架，理解用户增长算法的目标更偏用户生命周期和增量价值。搜索、广告、推荐通常围绕当前请求或当前流量做匹配、排序和转化优化；用户增长更关注拉新、激活、召回、留存、复购、会员转化、LTV、补贴效率和渠道 ROI。它的数据有更强的跨周期、跨渠道、延迟反馈和因果干预特征，模型也常涉及人群分层、uplift、因果推断、LTV 预估、流失预测、触达频控和预算分配。好的回答要比较目标、样本、标签、模型、实验和指标，并说明增长算法不能只追短期转化，否则可能造成补贴浪费、用户打扰和长期留存受损。

用户增长广告推荐系统业务指标模型评估

美团 / 算法