推荐系统面试题解析

标签题目

DSIN 中特征是如何做交叉的？

DSIN 的特征交叉不是一句“把稠密特征和稀疏特征拼接后送 DNN”就能解释清楚的。它的核心是先把用户历史行为按会话切分，在会话内用自注意力抽取局部兴趣，在会话间建模兴趣演化，再用目标物品对各个会话兴趣做激活。稠密特征通常经过归一化、分桶或线性投影后与稀疏 embedding 融合，交叉既包括注意力中的目标相关交互，也包括 DNN、乘积、差分、CrossNet 等可选显式交叉。

推荐系统

阿里巴巴 / 算法

推荐系统里除了位置偏置，还有哪些常见偏置？

推荐系统中的偏置不只来自排序位置，还来自曝光机制、用户选择、物料流行度、展示样式、来源信任、样本构造、反馈回路、时间变化、用户活跃度和反馈标注方式。面试回答要把偏置讲成数据如何被观察到、反馈如何被产生、模型如何被训练和评估的系统性问题，并进一步说明可用随机化实验、因果估计、逆倾向加权、重采样、多目标约束和更谨慎的在线评估来缓解。

推荐系统算法模型评估

阿里巴巴 / 算法

推荐或检索系统里的低频过滤如何实现？

低频过滤不是简单按次数删除，而是在明确业务目标和统计口径后，对样本、特征、query、item、用户行为或候选实体中频次过低、统计不稳定、噪声占比高的部分进行降权、合并、兜底或过滤。高质量回答要覆盖目标、口径、阈值、离线与在线实现、滑动窗口、长尾保护、冷启动、指标评估和工程风险。

推荐系统算法

阿里巴巴 / 算法

特征交叉和 One Epoch 现象之间有什么联系？

这道题的核心不是问“特征交叉是什么”，而是问候选人能否把一次工程观察解释成可验证的推荐系统规律。可以把 One Epoch 现象理解为：某些交叉特征在训练早期或首轮曝光中贡献了主要收益，后续继续训练的边际增益快速下降。它通常暗示交叉特征捕捉了强相关但稀疏的记忆型模式，需要用消融、频次分桶、时效性、泄漏排查和泛化验证来证明联系。

算法推荐系统

阿里巴巴 / 算法

推荐系统的召回、排序和重排链路如何理解？

这道题考察候选人是否能从工程链路而不是单点模型理解推荐系统：召回负责从海量候选中高覆盖地捞出可能感兴趣的内容，排序负责用特征和模型估计用户行为价值，重排负责在最终曝光前加入多样性、新鲜度、去重、业务规则和体验约束，同时还要兼顾在线延迟、离线评估和 A/B 实验闭环。

同题还出现在 1 个公司岗位

算法数据结构推荐系统模型评估

阿里巴巴 / 算法

机器学习模型训练和评估的基本流程是什么？

机器学习模型训练和评估的基本流程，本质是在业务目标约束下，把原始数据转化为可泛化模型，并通过离线验证、线上实验和持续监控判断模型是否真正有效。回答时不能只背训练步骤，还要说明数据质量、切分方式、指标选择、过拟合与数据泄漏控制，以及上线后的反馈闭环。

同题还出现在 2 个公司岗位

推荐系统模型评估

阿里巴巴 / 后端开发

用zk做注册中心，那zk数据结构是怎样的？

ZooKeeper 做注册中心时，核心数据结构不是表或哈希，而是一个层级命名空间的 znode 树。每个服务、分组、版本和实例都可以映射成路径节点，服务实例通常用临时节点或临时顺序节点表示。客户端通过 watch 订阅子节点变化，实例会话失效后节点自动删除，从而实现服务发现与上下线通知。

算法推荐系统

字节跳动 / 算法

推荐系统工程上是怎么实现的？

推荐系统工程实现通常是召回、粗排、精排、重排、策略和反馈闭环的多阶段链路。面试中要讲清离线训练、实时特征、在线服务、实验平台和监控回流，而不是只列几个推荐算法名字。

推荐系统系统设计算法

百度 / 算法

深度点击率预估模型如何选型？

深度点击率预估模型选型要看特征规模、样本量、实时性、可解释性和业务阶段。回答时可以从 LR/GBDT 到 Wide&Deep、DeepFM、DIN、DCN、MMoE 等模型演进讲起，再说明如何用离线指标和线上 A/B 验证。

推荐系统模型评估模型训练

滴滴 / 算法

特征工程中，如何处理高维稀疏特征？

高维稀疏特征常见于推荐、广告和搜索场景，处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题，再按模型类型给出处理方法。

特征工程 Embedding 推荐系统

百度 / 算法

多模态特征怎么融合？

多模态特征融合要解决不同模态的表示、对齐、尺度、缺失和交互问题。面试回答可按早期融合、中期融合、晚期融合和注意力/跨模态交互展开，再补充训练目标、缺失模态和线上成本。

多模态学习特征工程推荐系统

京东 / 算法

ESMM模型里，CVR和CTR任务共享Embedding层，这个在代码层面具体是怎么实现的？

ESMM 中 CTR 和 CVR 任务共享 Embedding 的代码实现，本质是同一批稀疏特征经过同一组 Embedding layer 查表，得到共享底层表示，再分别进入 CTR tower 和 CVR tower。回答要讲清共享参数、前向路径、loss 设计和训练样本空间。

同题还出现在 1 个公司岗位

推荐系统 Embedding 模型训练

百度 / 算法

离散、连续特征如何拼接？

离散和连续特征拼接的关键是先把两类特征变成尺度合适、语义明确的向量。离散特征常用 one-hot、hash 或 embedding，连续特征要归一化、分桶或变换，再在模型输入层拼接。

特征工程 Embedding 推荐系统

蚂蚁集团 / 算法

你觉得要如何提高目前支付宝中搜索功能的效果和用户体验？

这个问题可以按支付宝这类任务型搜索场景回答：同时提升搜索效果和用户体验，不能只改排序或入口样式。高质量回答应围绕意图理解、多路召回、排序目标、结果组织、交互反馈和实验评估展开。

搜索产品推荐系统模型评估

百度 / 算法

你了解推荐线上比较核心的环节吗？

推荐线上核心环节通常包括请求接入、特征获取、多路召回、粗排、精排、重排混排、策略约束、日志回流和监控实验。回答要讲清每一层的目标、输入输出和效率取舍。

推荐系统系统设计模型评估

哔哩哔哩 / 算法

在B站视频业务的场景下，有哪些可能的挑选特征的方法？

B站视频业务挑选特征，要从业务目标、候选特征池、统计筛选、模型重要性、消融实验、多模态表征和线上验证共同判断，不能只凭相关性或单次离线指标决定。

特征工程推荐系统模型评估

快手 / C/C++

一个类似快手的大规模推荐系统有什么模块？

大规模推荐系统通常由数据采集、特征平台、召回、排序、重排、策略、实验、监控和反馈训练闭环组成。回答要强调模块分层和每层的工程约束，而不是只列推荐算法。

推荐系统系统设计模型评估

蚂蚁集团 / 算法

如果让你设计一个推荐系统，会设计什么样的架构？

推荐系统架构题要从离线训练、在线服务、召回排序、策略重排、实验监控和反馈闭环回答，不能只列协同过滤或深度模型。

推荐系统系统设计特征工程

百度 / 算法

大模型产出的向量或相似度可用于推荐链路的哪些环节？

大模型产出的向量或相似度可以用于推荐链路的召回、粗排、精排特征、重排和解释环节，但不能把整条链路都交给大模型直接排序。

大语言模型推荐系统 Embedding

百度 / 算法

如何实现给用户推荐音乐的功能，需要哪些特征和算法？

音乐推荐设计要从用户、音乐、上下文和反馈特征出发，构建召回、排序、重排和反馈闭环，而不是只列协同过滤或深度模型。

推荐系统特征工程 Embedding

快手 / 算法

模型在线训练和离线训练有什么区别？

在线训练和离线训练的区别在于数据更新频率、训练时效、系统复杂度和稳定性要求；推荐场景常用离线主模型加在线增量或实时特征的混合方案。

模型训练推荐系统性能排查

百度 / 算法

目前主流的视频推荐和音乐推荐算法有哪些？

视频和音乐推荐常用算法可以按召回、排序和重排来回答：协同过滤、内容理解、向量召回、深度排序、多目标排序和多样性控制共同组成链路。

推荐系统特征工程 Embedding

蚂蚁集团 / 算法

如何将 NLP 和推荐相互结合？

NLP 和推荐结合的关键是把文本理解能力转成推荐可用的用户、物料和上下文表示，用于召回、排序、冷启动和解释，而不是简单把两个系统拼起来。

推荐系统 Embedding 文本分类

蚂蚁集团 / 算法

常用的召回算法有哪些？

常用召回算法可以按规则、协同过滤、内容向量、模型向量、图关系和实时行为分组，核心目标是在可控延迟内从海量物料中取到足够好的候选。

推荐系统 Embedding 算法

百度 / 算法

推荐系统如何解决马太效应？

推荐系统的马太效应是热门内容获得更多曝光后继续变热，长尾内容越来越难被发现，需要从召回、排序、重排、探索和评估偏差一起治理。

推荐系统特征工程模型评估

拼多多 / 算法

如何提高冷门商品的推荐效果？

提高冷门商品推荐效果，需要解决行为稀疏、曝光不足和模型偏热门的问题，常用内容特征、相似召回、探索流量、重排扶持和分层评估共同处理。

推荐系统 Embedding 特征工程

美团 / 算法

如何避免给用户重复推荐已看过的视频？

避免重复推荐已看过视频，要把曝光、播放、完播和负反馈记录接入召回、排序和重排链路，并处理跨设备、相似内容和时间窗口。

推荐系统特征工程模型评估

京东 / 算法

LSTM 的输入门、遗忘门和输出门是如何工作的？

LSTM 用遗忘门、输入门和输出门控制细胞状态的保留、写入和暴露，从而缓解普通 RNN 的长期依赖和梯度衰减问题。

同题还出现在 1 个公司岗位

神经网络推荐系统

腾讯 / 算法

推荐系统中如何解决冷启动问题？

推荐系统中如何解决冷启动问题？这道腾讯牛客题的关键是围绕“推荐系统冷启动”讲清概念、机制、取舍和边界。推荐系统冷启动要先区分用户冷启动、物品冷启动和系统冷启动。用户没有行为时依赖注册画像、地理位置、设备、兴趣选择和热门兜底；物品没有交互时依赖内容特征、类目、文本/图像 embedding 和小流量探索；系统冷启动则要先靠规则、运营种子数据和快速反馈闭环建立初始样本。

推荐系统算法

腾讯 / 算法

高维稀疏特征为什么不适合直接用神经网络训练？

高维稀疏特征为什么不适合直接用神经网络训练？这道腾讯牛客题的关键是围绕“高维稀疏特征直接训练神经网络的风险”讲清概念、机制、取舍和边界。高维稀疏特征如果直接 one-hot 输入神经网络，会带来参数巨大、有效梯度稀疏、长尾类别训练不足、过拟合和线上存储/延迟成本。工程上通常先做 embedding、特征哈希、频次截断、交叉特征或用适合稀疏输入的线性/树模型做基线。

模型训练算法推荐系统

美团 / 算法