知识点标签

Embedding 面试题解析

Embedding 相关面试题，覆盖向量表示、共享嵌入、召回排序和表征学习。

71 道题 5 个岗位 16 个公司

标签题目

Embedding相关面试题

滴滴 / 算法

特征工程中，如何处理高维稀疏特征？

高维稀疏特征常见于推荐、广告和搜索场景，处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题，再按模型类型给出处理方法。

特征工程 Embedding 推荐系统

京东 / 算法

ESMM模型里，CVR和CTR任务共享Embedding层，这个在代码层面具体是怎么实现的？

ESMM 中 CTR 和 CVR 任务共享 Embedding 的代码实现，本质是同一批稀疏特征经过同一组 Embedding layer 查表，得到共享底层表示，再分别进入 CTR tower 和 CVR tower。回答要讲清共享参数、前向路径、loss 设计和训练样本空间。

同题还出现在 1 个公司岗位

推荐系统 Embedding 模型训练

腾讯 / 算法

如何生成词向量？

生成词向量可以从共现统计、预测式训练和上下文化表示三条线回答。经典方法包括 one-hot、共现矩阵加 SVD、Word2Vec、GloVe、FastText，以及 BERT 这类上下文相关 embedding。

Embedding 大语言模型

百度 / 算法

离散、连续特征如何拼接？

离散和连续特征拼接的关键是先把两类特征变成尺度合适、语义明确的向量。离散特征常用 one-hot、hash 或 embedding，连续特征要归一化、分桶或变换，再在模型输入层拼接。

特征工程 Embedding 推荐系统

拼多多 / 算法

如果需要为特定领域的文本训练一套 Embedding，你会怎么做？

为特定领域文本训练 Embedding，要从语料构建、分词策略、训练目标、负样本、评估和部署更新全链路设计。关键不是只训练一个向量表，而是让向量能服务领域检索、分类、聚类或推荐任务。

Embedding 大语言模型模型训练

百度 / 算法

大模型产出的向量或相似度可用于推荐链路的哪些环节？

大模型产出的向量或相似度可以用于推荐链路的召回、粗排、精排特征、重排和解释环节，但不能把整条链路都交给大模型直接排序。

大语言模型推荐系统 Embedding

百度 / 算法

如何实现给用户推荐音乐的功能，需要哪些特征和算法？

音乐推荐设计要从用户、音乐、上下文和反馈特征出发，构建召回、排序、重排和反馈闭环，而不是只列协同过滤或深度模型。

推荐系统特征工程 Embedding

百度 / 算法

目前主流的视频推荐和音乐推荐算法有哪些？

视频和音乐推荐常用算法可以按召回、排序和重排来回答：协同过滤、内容理解、向量召回、深度排序、多目标排序和多样性控制共同组成链路。

推荐系统特征工程 Embedding

蚂蚁集团 / 算法

如何将 NLP 和推荐相互结合？

NLP 和推荐结合的关键是把文本理解能力转成推荐可用的用户、物料和上下文表示，用于召回、排序、冷启动和解释，而不是简单把两个系统拼起来。

推荐系统 Embedding 文本分类

蚂蚁集团 / 算法

常用的召回算法有哪些？

常用召回算法可以按规则、协同过滤、内容向量、模型向量、图关系和实时行为分组，核心目标是在可控延迟内从海量物料中取到足够好的候选。

推荐系统 Embedding 算法

拼多多 / 算法

如何提高冷门商品的推荐效果？

提高冷门商品推荐效果，需要解决行为稀疏、曝光不足和模型偏热门的问题，常用内容特征、相似召回、探索流量、重排扶持和分层评估共同处理。

推荐系统 Embedding 特征工程

百度 / 算法

常见的文本特征提取器有哪些？

文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答，关键是说明适用场景和优缺点。

文本分类特征工程 Embedding

美团 / 算法

多模态模型中的模态对齐方法有哪些？

多模态对齐方法包括对比学习、投影到共享空间、跨注意力融合、指令微调、图文匹配损失和细粒度 token/patch 对齐。

多模态学习大语言模型 Embedding

华为 / 算法

KG embedding 如何支持 mini-batch 训练，图谱属性缺失怎么处理？

这题考知识图谱表示学习的工程训练能力：mini-batch 训练要处理三元组采样、负采样和邻域依赖，属性缺失要区分未知、不可用和真实为空。

图数据库 Embedding 模型训练

美团 / 算法

InfoNCE 的温度系数有什么作用？

温度系数控制 InfoNCE 对相似度差异的敏感程度，本质是在调 softmax 分布的尖锐度、梯度强度和难负样本权重。

推荐系统 Embedding 模型训练

小红书 / 算法

Wide&Deep 的原理是什么，为什么适合推荐系统？

Wide&Deep 将线性 wide 部分和深度 deep 部分联合训练。wide 侧擅长记住高频、明确的交叉规则，deep 侧通过 embedding 和多层网络学习稀疏特征的泛化表示，因此适合同时需要记忆历史共现和泛化到新组合的推荐系统。

推荐系统 Embedding 模型训练

网易 / 算法

SVD 和 SVD++ 有什么区别？

推荐系统里的 SVD 通常指矩阵分解，将用户和物品映射到隐向量，用内积预测评分或偏好。SVD++ 在此基础上引入用户的隐式反馈物品集合，把用户交互过的物品隐向量聚合进用户表示，因此能利用浏览、点击、收藏等未显式评分行为，缓解评分稀疏问题。

推荐系统 Embedding 统计学

美团 / 算法

用 GNN 做推荐时，哪些因素最重要？

用 GNN 做推荐最重要的是图怎么构建、边表示什么、节点和边特征是否可靠、采样和聚合如何保留有效邻居、层数如何避免过平滑、训练目标是否贴近排序任务，以及线上是否能承受图更新和推理成本。GNN 的优势在于利用高阶邻居和关系结构，但效果高度依赖图质量。

推荐系统神经网络 Embedding

小米 / 算法

加入雷达点云作为第三模态时，3D 多模态感知如何调整表征和对齐策略？

这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征，再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。

多模态学习计算机视觉 Embedding 神经网络

字节跳动 / 算法

OCR 输出为什么要保留 bbox 和 spatial layout，后续如何给多模态理解模型使用？

这道题考察 OCR 结果如何从纯文本升级为可供多模态理解使用的结构化表示。回答重点不是检测识别算法，而是 text、bbox、reading order、confidence 和视觉区域如何一起进入下游模型。

计算机视觉多模态学习特征工程 Embedding

腾讯 / 算法

推荐系统中引入向量索引召回时，在线 serving 链路应该如何改造？

这道题考察的不是向量索引原理，而是把向量召回接入推荐在线 serving 后，链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚，并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。

同题还出现在 2 个公司岗位

推荐系统 Embedding 向量数据库工程化

腾讯 / 后端开发

RAG 处理 PDF 知识库时，如何设计切片、分页元数据和检索链路来减少答非所问？

这题考察 PDF 知识库 RAG 的端到端设计：要用结构化解析保留标题、页码和版面语义，按文档结构切 chunk 并带 page span metadata，通过召回、重排和上下文组装减少答非所问，并用 badcase 闭环持续修正切片与检索链路。

同公司岗位有 2 条面经记录

RAG 大语言模型 Embedding 向量数据库模型评估

字节跳动 / 后端开发

RAG 知识库如何做定期维护，什么时候应选 RAG 而不是 SFT？

这题考 RAG 知识库生命周期治理和 RAG/SFT 方案选择，回答要把数据更新、质量评估、检索效果和模型改造边界分开。

RAG SFT 大语言模型向量数据库 Embedding 模型微调

百度 / 算法

原始视频内容如何通过多模态模型生成推荐系统可用的向量表示？

这题考原始视频到推荐向量的多模态表示链路，回答要覆盖采样、编码、融合、训练目标、上线使用和评估。

多模态学习 Embedding 推荐系统计算机视觉模型评估

腾讯 / 后端开发

RAG 知识库如何做不停服更新，并保证检索结果一致性？

这题考 RAG 知识库不停服更新和一致性，不是 RAG vs SFT。回答要覆盖版本化索引、离线构建、影子验证、别名切换、缓存失效、权限元数据和回滚。

RAG 大语言模型 Embedding 向量数据库稳定性系统设计

阿里巴巴 / 后端开发

Agent 长期记忆功能如何设计、召回和持续优化？

这题考 Agent 长期记忆的生命周期，不是多用户隔离。答案要覆盖存什么、如何抽取、召回、更新、遗忘、删除、隐私授权和质量评估。

AI Agent 大语言模型内存管理 Embedding RAG 隐私保护

小红书 / 算法

给定包含目标实体的文本，如何把实体链接到知识库，主要难点是什么？

这题考实体链接到知识库的完整链路，回答要覆盖 mention 规范化、候选召回、上下文排序、歧义消解、NIL 处理、知识库更新和评估指标。

文本分类 Matching 方法 Embedding 图数据库模型评估

字节跳动 / 算法

RAG Embedding 召回出现误判时，如何定位并改进？

这题考 RAG 中 embedding 召回误判的诊断和改进，回答要区分误召回与漏召回，并用标注集、近邻检查、负样本、混合检索、rerank 和阈值策略闭环优化。

同题还出现在 1 个公司岗位

RAG Embedding 向量数据库模型评估大语言模型

小红书 / 算法

LLaVA 的整体结构如何把视觉编码器输出接入语言模型？

这题考 LLaVA 的视觉编码器、投影层、语言模型和指令微调流程，回答要讲清视觉特征如何变成 LLM 可消费的 token 表示。

多模态学习大语言模型计算机视觉 Transformer Embedding

快手 / 算法

向量检索中 IVF_FLAT 和 HNSW 有什么区别，如何按召回率、延迟和内存选型？

这题考向量检索索引选型，回答重点是 IVF_FLAT 的聚类倒排思想、HNSW 的近邻图搜索思想，以及召回、延迟、内存、构建和更新成本的权衡。

同题还出现在 1 个公司岗位

向量数据库 Embedding RAG 模型评估

阿里巴巴 / 算法

BGE/GTE 这类 Embedding 模型如何训练，为什么不能直接用 BERT-base 余弦召回？

这题考检索向量模型的训练目标差异，重点是 BGE/GTE 这类 embedding 模型面向语义召回训练，而原始 BERT-base 不天然适合直接做余弦检索。

Embedding 模型训练 RAG 大语言模型

字节跳动 / 算法

CLIP 的图文对比学习流程如何用伪代码表示？

这题考 CLIP 图文对比学习的训练流程，回答重点是 batch 内配对、图像/文本归一化向量、相似度矩阵、温度系数和对称交叉熵损失。

同题还出现在 1 个公司岗位

多模态学习 Embedding 计算机视觉手写题模型训练

字节跳动 / 算法

BEiT v3 相比 BEiT v2 的 embedding 设计有什么变化？

这题考 BEiT v3 相比 BEiT v2 在输入 embedding 和多模态建模上的变化，回答重点是从图像侧表示学习扩展到图像、文本和图文统一输入。

多模态学习计算机视觉 Transformer Embedding

字节跳动 / 算法

ViT 如何把 224x224x3 图像切成 patch 序列，sequence length 如何计算？

这题考 ViT 把图像切成 patch 后如何形成 token 序列，回答重点是 patch 数量、每个 patch 的展平维度、线性投影、位置编码和 CLS token。

同题还出现在 2 个公司岗位

计算机视觉 Transformer Embedding

字节跳动 / 算法

Transformer 中绝对位置编码和相对位置编码如何实现，各自适合什么场景？

这题考 Transformer 位置信息注入方式，重点是绝对位置编码直接表示当前位置，相对位置编码在注意力中建模 token 间距离和方向。

同题还出现在 1 个公司岗位

注意力机制 Transformer Embedding

阿里巴巴 / 后端开发

代码 Agent 的 RAG 检索索引如何同时设计语义、关键词、结构化和权限索引？

这题考代码 Agent 的 RAG 索引架构，不是泛泛讲向量库。回答要覆盖语义索引、关键词索引、结构化代码索引和权限索引如何协同检索、过滤、排序和增量更新。

AI Agent RAG Embedding 向量数据库安全 AI 编程

Cider / 后端开发

向量数据库在 AI 应用中数据量增大时，如何扩展索引、分片和召回性能？

这题考向量库从小规模知识库增长到大规模检索服务时的扩展思路。回答要覆盖容量评估、索引选择、分片分区、过滤与召回、在线更新、评估和成本延迟取舍。

向量数据库 Embedding RAG 可扩展性性能排查

京东 / 测开

RAG 外部知识库分片过大时，如何重新切分、保留语义边界并控制召回噪声？

这题考 RAG 知识库切分的工程细节，重点是说明分片过大会稀释 embedding、挤占上下文、引入噪声，并给出递归切分、层级索引、元数据继承、召回重排和回归评测方案。

同题还出现在 1 个公司岗位

RAG Embedding 向量数据库大语言模型质量工程系统设计

快手 / 后端开发

Agent 如何从对话中更新向量记忆库里的用户画像，避免脏记忆、过期记忆和隐私风险？

这题考 Agent 长期记忆的写入路径：从对话提取用户画像不能直接整段入库，而要做候选抽取、确认、结构化、去重、过期、隐私过滤和可撤回治理。

AI Agent Embedding 向量数据库隐私保护 RAG 内存管理

字节跳动 / 算法

RAG 项目里的召回排序链路如何设计，Embedding 召回、粗排、重排和答案生成各自承担什么职责？

这题考 RAG 的工程链路设计：不是只接一个向量库，而是要把查询理解、混合召回、粗排、重排、上下文拼装、生成约束和评测闭环讲成一条可上线的检索增强系统。

同题还出现在 3 个公司岗位

RAG Embedding AI 搜索大语言模型模型评估

百度 / 后端开发

向量检索中常见相似度计算指标有哪些？余弦相似度、点积和欧氏距离如何选择？

这题考向量检索基础和工程选择：候选人要能解释 cosine、dot product、L2 的含义、适用前提、归一化关系，以及为什么指标要和 embedding 训练目标及索引配置一致。

Embedding 向量数据库 RAG 大语言模型

蚂蚁集团 / 后端开发

RAG 混合召回链路中 URL 解析怎么做，如何把网页链接、正文和元数据接入向量与关键词召回？

这题考的是 Web 类知识源进入 RAG 的完整索引链路：候选人要能讲清 URL 规范化、网页抓取解析、正文抽取、元数据建模、chunk 切分、向量和关键词混合召回、权限过滤、去重引用和评估闭环。

RAG AI 搜索 Embedding 向量数据库 URL

阿里巴巴 / 算法

连接视觉编码器和 LLM 时，Q-Former 与 LLaVA MLP Adaptor 各有什么优缺点，如何选择？

这题考多模态大模型里视觉特征到语言模型 token 空间的连接器设计。好的回答要说明二者都在解决维度对齐、语义对齐、信息压缩和训练稳定性问题，但 Q-Former 更像带可学习查询的语义压缩器，MLP projector 更像简单直接的视觉 token 映射器，选择取决于数据规模、视觉细节需求、上下文预算、延迟和冻结策略。

多模态学习大语言模型计算机视觉 Transformer 注意力机制 Embedding

快手 / 后端开发

RAG 为什么要引入父子索引，如何兼顾小粒度召回和大粒度上下文回填？

这题考的是 RAG 检索粒度设计：小 chunk 更容易被向量或关键词召回命中，但单独放进上下文时可能缺少标题、章节、定义、前提和表格上下文；父子索引用子块做高精度召回，用父文档或父章节做证据回填，从而兼顾召回命中率、答案可读性和上下文预算。

RAG Embedding 向量数据库 AI 搜索大语言模型系统设计

快手 / 后端开发

RAG 检索中为什么要混合 BM25 和向量召回，融合权重或比例如何设置和评估？

这题考 sparse+dense hybrid retrieval 的工程判断：BM25 擅长精确词项、专名、数字、错误码和短查询，向量召回擅长语义相近、同义表达和自然语言问题。融合比例不是拍脑袋固定值，而要根据 query 类型、离线指标、线上反馈、延迟成本和 badcase 分布动态调优。

同题还出现在 1 个公司岗位

RAG Embedding AI 搜索向量数据库模型评估大语言模型

快手 / 后端开发

RAG rerank 后 TopK 与上下文长度预算如何选择，过短或过长时怎么处理？

这题考的是 rerank 之后的证据选择策略：TopK 不是固定返回几个 chunk，而是在相关性、证据覆盖、去重多样性、父子扩展、token 预算、模型长上下文能力、延迟成本和拒答策略之间做动态取舍。

RAG AI 搜索 Embedding 模型评估大语言模型系统设计

百度 / 算法

RAG 需要跨多个文档综合回答时，如何做多跳召回、证据合并和冲突处理？

这题考的是多文档 RAG 的端到端设计能力：不能只说把更多 chunk 塞进上下文，而要能讲清问题拆解、多路召回、证据覆盖、去重合并、冲突处理、带引用生成和评估闭环。

RAG 大语言模型向量数据库 Embedding 模型评估

小米 / 算法

视觉 Transformer 处理非均匀采样 3D 点云时，Patch Embedding 应如何改进？

这题考的是把 2D ViT 的 Patch Embedding 思路迁移到 3D 点云时，如何处理点云无序、非均匀密度、局部几何和变长邻域。好的回答不能只说把点云分块后送 Transformer，而要讲清采样中心、邻域构造、密度归一、局部聚合、3D 位置编码和多尺度鲁棒性。

计算机视觉 Transformer Embedding 神经网络模型训练