标签题目
Embedding相关面试题
特征工程中,如何处理高维稀疏特征?
高维稀疏特征常见于推荐、广告和搜索场景,处理思路是降维、哈希、Embedding、正则化和特征筛选。回答要说明稀疏性带来的计算、存储、过拟合和泛化问题,再按模型类型给出处理方法。
ESMM模型里,CVR和CTR任务共享Embedding层,这个在代码层面具体是怎么实现的?
ESMM 中 CTR 和 CVR 任务共享 Embedding 的代码实现,本质是同一批稀疏特征经过同一组 Embedding layer 查表,得到共享底层表示,再分别进入 CTR tower 和 CVR tower。回答要讲清共享参数、前向路径、loss 设计和训练样本空间。
同题还出现在 1 个公司岗位
如何生成词向量?
生成词向量可以从共现统计、预测式训练和上下文化表示三条线回答。经典方法包括 one-hot、共现矩阵加 SVD、Word2Vec、GloVe、FastText,以及 BERT 这类上下文相关 embedding。
离散、连续特征如何拼接?
离散和连续特征拼接的关键是先把两类特征变成尺度合适、语义明确的向量。离散特征常用 one-hot、hash 或 embedding,连续特征要归一化、分桶或变换,再在模型输入层拼接。
如果需要为特定领域的文本训练一套 Embedding,你会怎么做?
为特定领域文本训练 Embedding,要从语料构建、分词策略、训练目标、负样本、评估和部署更新全链路设计。关键不是只训练一个向量表,而是让向量能服务领域检索、分类、聚类或推荐任务。
大模型产出的向量或相似度可用于推荐链路的哪些环节?
大模型产出的向量或相似度可以用于推荐链路的召回、粗排、精排特征、重排和解释环节,但不能把整条链路都交给大模型直接排序。
如何实现给用户推荐音乐的功能,需要哪些特征和算法?
音乐推荐设计要从用户、音乐、上下文和反馈特征出发,构建召回、排序、重排和反馈闭环,而不是只列协同过滤或深度模型。
目前主流的视频推荐和音乐推荐算法有哪些?
视频和音乐推荐常用算法可以按召回、排序和重排来回答:协同过滤、内容理解、向量召回、深度排序、多目标排序和多样性控制共同组成链路。
如何将 NLP 和推荐相互结合?
NLP 和推荐结合的关键是把文本理解能力转成推荐可用的用户、物料和上下文表示,用于召回、排序、冷启动和解释,而不是简单把两个系统拼起来。
常用的召回算法有哪些?
常用召回算法可以按规则、协同过滤、内容向量、模型向量、图关系和实时行为分组,核心目标是在可控延迟内从海量物料中取到足够好的候选。
如何提高冷门商品的推荐效果?
提高冷门商品推荐效果,需要解决行为稀疏、曝光不足和模型偏热门的问题,常用内容特征、相似召回、探索流量、重排扶持和分层评估共同处理。
常见的文本特征提取器有哪些?
文本特征提取器可以从传统稀疏特征、统计特征、词向量、上下文 embedding 和任务特征几类回答,关键是说明适用场景和优缺点。
多模态模型中的模态对齐方法有哪些?
多模态对齐方法包括对比学习、投影到共享空间、跨注意力融合、指令微调、图文匹配损失和细粒度 token/patch 对齐。
KG embedding 如何支持 mini-batch 训练,图谱属性缺失怎么处理?
这题考知识图谱表示学习的工程训练能力:mini-batch 训练要处理三元组采样、负采样和邻域依赖,属性缺失要区分未知、不可用和真实为空。
InfoNCE 的温度系数有什么作用?
温度系数控制 InfoNCE 对相似度差异的敏感程度,本质是在调 softmax 分布的尖锐度、梯度强度和难负样本权重。
Wide&Deep 的原理是什么,为什么适合推荐系统?
Wide&Deep 将线性 wide 部分和深度 deep 部分联合训练。wide 侧擅长记住高频、明确的交叉规则,deep 侧通过 embedding 和多层网络学习稀疏特征的泛化表示,因此适合同时需要记忆历史共现和泛化到新组合的推荐系统。
SVD 和 SVD++ 有什么区别?
推荐系统里的 SVD 通常指矩阵分解,将用户和物品映射到隐向量,用内积预测评分或偏好。SVD++ 在此基础上引入用户的隐式反馈物品集合,把用户交互过的物品隐向量聚合进用户表示,因此能利用浏览、点击、收藏等未显式评分行为,缓解评分稀疏问题。
用 GNN 做推荐时,哪些因素最重要?
用 GNN 做推荐最重要的是图怎么构建、边表示什么、节点和边特征是否可靠、采样和聚合如何保留有效邻居、层数如何避免过平滑、训练目标是否贴近排序任务,以及线上是否能承受图更新和推理成本。GNN 的优势在于利用高阶邻居和关系结构,但效果高度依赖图质量。
加入雷达点云作为第三模态时,3D 多模态感知如何调整表征和对齐策略?
这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征,再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。
OCR 输出为什么要保留 bbox 和 spatial layout,后续如何给多模态理解模型使用?
这道题考察 OCR 结果如何从纯文本升级为可供多模态理解使用的结构化表示。回答重点不是检测识别算法,而是 text、bbox、reading order、confidence 和视觉区域如何一起进入下游模型。
推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?
这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。
同题还出现在 2 个公司岗位
RAG 处理 PDF 知识库时,如何设计切片、分页元数据和检索链路来减少答非所问?
这题考察 PDF 知识库 RAG 的端到端设计:要用结构化解析保留标题、页码和版面语义,按文档结构切 chunk 并带 page span metadata,通过召回、重排和上下文组装减少答非所问,并用 badcase 闭环持续修正切片与检索链路。
同公司岗位有 2 条面经记录
RAG 知识库如何做定期维护,什么时候应选 RAG 而不是 SFT?
这题考 RAG 知识库生命周期治理和 RAG/SFT 方案选择,回答要把数据更新、质量评估、检索效果和模型改造边界分开。
原始视频内容如何通过多模态模型生成推荐系统可用的向量表示?
这题考原始视频到推荐向量的多模态表示链路,回答要覆盖采样、编码、融合、训练目标、上线使用和评估。
RAG 知识库如何做不停服更新,并保证检索结果一致性?
这题考 RAG 知识库不停服更新和一致性,不是 RAG vs SFT。回答要覆盖版本化索引、离线构建、影子验证、别名切换、缓存失效、权限元数据和回滚。
Agent 长期记忆功能如何设计、召回和持续优化?
这题考 Agent 长期记忆的生命周期,不是多用户隔离。答案要覆盖存什么、如何抽取、召回、更新、遗忘、删除、隐私授权和质量评估。
给定包含目标实体的文本,如何把实体链接到知识库,主要难点是什么?
这题考实体链接到知识库的完整链路,回答要覆盖 mention 规范化、候选召回、上下文排序、歧义消解、NIL 处理、知识库更新和评估指标。
RAG Embedding 召回出现误判时,如何定位并改进?
这题考 RAG 中 embedding 召回误判的诊断和改进,回答要区分误召回与漏召回,并用标注集、近邻检查、负样本、混合检索、rerank 和阈值策略闭环优化。
同题还出现在 1 个公司岗位
LLaVA 的整体结构如何把视觉编码器输出接入语言模型?
这题考 LLaVA 的视觉编码器、投影层、语言模型和指令微调流程,回答要讲清视觉特征如何变成 LLM 可消费的 token 表示。
向量检索中 IVF_FLAT 和 HNSW 有什么区别,如何按召回率、延迟和内存选型?
这题考向量检索索引选型,回答重点是 IVF_FLAT 的聚类倒排思想、HNSW 的近邻图搜索思想,以及召回、延迟、内存、构建和更新成本的权衡。
同题还出现在 1 个公司岗位
BGE/GTE 这类 Embedding 模型如何训练,为什么不能直接用 BERT-base 余弦召回?
这题考检索向量模型的训练目标差异,重点是 BGE/GTE 这类 embedding 模型面向语义召回训练,而原始 BERT-base 不天然适合直接做余弦检索。
CLIP 的图文对比学习流程如何用伪代码表示?
这题考 CLIP 图文对比学习的训练流程,回答重点是 batch 内配对、图像/文本归一化向量、相似度矩阵、温度系数和对称交叉熵损失。
同题还出现在 1 个公司岗位
BEiT v3 相比 BEiT v2 的 embedding 设计有什么变化?
这题考 BEiT v3 相比 BEiT v2 在输入 embedding 和多模态建模上的变化,回答重点是从图像侧表示学习扩展到图像、文本和图文统一输入。
ViT 如何把 224x224x3 图像切成 patch 序列,sequence length 如何计算?
这题考 ViT 把图像切成 patch 后如何形成 token 序列,回答重点是 patch 数量、每个 patch 的展平维度、线性投影、位置编码和 CLS token。
同题还出现在 2 个公司岗位
Transformer 中绝对位置编码和相对位置编码如何实现,各自适合什么场景?
这题考 Transformer 位置信息注入方式,重点是绝对位置编码直接表示当前位置,相对位置编码在注意力中建模 token 间距离和方向。
同题还出现在 1 个公司岗位
代码 Agent 的 RAG 检索索引如何同时设计语义、关键词、结构化和权限索引?
这题考代码 Agent 的 RAG 索引架构,不是泛泛讲向量库。回答要覆盖语义索引、关键词索引、结构化代码索引和权限索引如何协同检索、过滤、排序和增量更新。
向量数据库在 AI 应用中数据量增大时,如何扩展索引、分片和召回性能?
这题考向量库从小规模知识库增长到大规模检索服务时的扩展思路。回答要覆盖容量评估、索引选择、分片分区、过滤与召回、在线更新、评估和成本延迟取舍。
RAG 外部知识库分片过大时,如何重新切分、保留语义边界并控制召回噪声?
这题考 RAG 知识库切分的工程细节,重点是说明分片过大会稀释 embedding、挤占上下文、引入噪声,并给出递归切分、层级索引、元数据继承、召回重排和回归评测方案。
同题还出现在 1 个公司岗位
Agent 如何从对话中更新向量记忆库里的用户画像,避免脏记忆、过期记忆和隐私风险?
这题考 Agent 长期记忆的写入路径:从对话提取用户画像不能直接整段入库,而要做候选抽取、确认、结构化、去重、过期、隐私过滤和可撤回治理。
RAG 项目里的召回排序链路如何设计,Embedding 召回、粗排、重排和答案生成各自承担什么职责?
这题考 RAG 的工程链路设计:不是只接一个向量库,而是要把查询理解、混合召回、粗排、重排、上下文拼装、生成约束和评测闭环讲成一条可上线的检索增强系统。
同题还出现在 3 个公司岗位
向量检索中常见相似度计算指标有哪些?余弦相似度、点积和欧氏距离如何选择?
这题考向量检索基础和工程选择:候选人要能解释 cosine、dot product、L2 的含义、适用前提、归一化关系,以及为什么指标要和 embedding 训练目标及索引配置一致。
RAG 混合召回链路中 URL 解析怎么做,如何把网页链接、正文和元数据接入向量与关键词召回?
这题考的是 Web 类知识源进入 RAG 的完整索引链路:候选人要能讲清 URL 规范化、网页抓取解析、正文抽取、元数据建模、chunk 切分、向量和关键词混合召回、权限过滤、去重引用和评估闭环。
连接视觉编码器和 LLM 时,Q-Former 与 LLaVA MLP Adaptor 各有什么优缺点,如何选择?
这题考多模态大模型里视觉特征到语言模型 token 空间的连接器设计。好的回答要说明二者都在解决维度对齐、语义对齐、信息压缩和训练稳定性问题,但 Q-Former 更像带可学习查询的语义压缩器,MLP projector 更像简单直接的视觉 token 映射器,选择取决于数据规模、视觉细节需求、上下文预算、延迟和冻结策略。
RAG 为什么要引入父子索引,如何兼顾小粒度召回和大粒度上下文回填?
这题考的是 RAG 检索粒度设计:小 chunk 更容易被向量或关键词召回命中,但单独放进上下文时可能缺少标题、章节、定义、前提和表格上下文;父子索引用子块做高精度召回,用父文档或父章节做证据回填,从而兼顾召回命中率、答案可读性和上下文预算。
RAG 检索中为什么要混合 BM25 和向量召回,融合权重或比例如何设置和评估?
这题考 sparse+dense hybrid retrieval 的工程判断:BM25 擅长精确词项、专名、数字、错误码和短查询,向量召回擅长语义相近、同义表达和自然语言问题。融合比例不是拍脑袋固定值,而要根据 query 类型、离线指标、线上反馈、延迟成本和 badcase 分布动态调优。
同题还出现在 1 个公司岗位
RAG rerank 后 TopK 与上下文长度预算如何选择,过短或过长时怎么处理?
这题考的是 rerank 之后的证据选择策略:TopK 不是固定返回几个 chunk,而是在相关性、证据覆盖、去重多样性、父子扩展、token 预算、模型长上下文能力、延迟成本和拒答策略之间做动态取舍。
RAG 需要跨多个文档综合回答时,如何做多跳召回、证据合并和冲突处理?
这题考的是多文档 RAG 的端到端设计能力:不能只说把更多 chunk 塞进上下文,而要能讲清问题拆解、多路召回、证据覆盖、去重合并、冲突处理、带引用生成和评估闭环。
视觉 Transformer 处理非均匀采样 3D 点云时,Patch Embedding 应如何改进?
这题考的是把 2D ViT 的 Patch Embedding 思路迁移到 3D 点云时,如何处理点云无序、非均匀密度、局部几何和变长邻域。好的回答不能只说把点云分块后送 Transformer,而要讲清采样中心、邻域构造、密度归一、局部聚合、3D 位置编码和多尺度鲁棒性。