Embedding 面试题解析｜面试大师

标签题目

Embedding相关面试题第 2 页

阿里巴巴 / 后端开发

RAG 检索召回无关内容时，如何从 query rewrite、混合检索、rerank、过滤和拒答机制处理？

这题考察候选人能否把 RAG 无关召回拆成可诊断、可治理、可评估的检索链路问题，而不是只说调提示词或换模型。

同题还出现在 1 个公司岗位

快手 / 后端开发

生产级 RAG 的数据解析与入库流水线如何设计，如何处理 PDF、DOCX、表格、图片和多格式文档？

生产级 RAG 的数据解析与入库流水线应从文件接入、格式识别、内容解析、结构保留、规范化切分、embedding、索引落库、权限和质量监控全链路设计。PDF、DOCX、表格、图片、Markdown、TXT 和富文本的解析策略不同：PDF 要区分数字文本和扫描件，DOCX 要保留标题层级和表格，表格要理解 sheet、表头和单元格关系，图片要 OCR 或生成视觉描述，多格式文档要保留统一的 document、section、chunk 和 asset 元数据。入库侧要支持幂等、版本、增量更新、失败重试、死信队列、ACL 过滤、向量库和关键词索引协同，以及可回溯的解析证据。

RAG Embedding 向量数据库 AI 搜索系统设计稳定性

快手 / 后端开发

RAG 处理大表格时，如何切块、限流和错峰，避免索引写入与消息队列被压垮？

这题考的是候选人能否把大表格 RAG 从“把每一行都扔进 embedding 和向量库”升级为可控的数据管道：先减少无效 chunk，再用限流、批量、队列削峰、错峰调度和可观测性保护索引系统与消息队列。

RAG Embedding 向量数据库消息队列稳定性性能排查

快手 / 后端开发

RAG 中 query rewrite、HyDE 和 RRF 分别解决什么问题，如何接入混合检索链路？

这题考的是候选人是否能区分 query rewrite、HyDE 和 RRF 在混合检索中的职责：rewrite 改善查询表达，HyDE 用假设答案拉近语义空间，RRF 融合多路召回结果，它们分别作用在召回前、向量查询构造和多路结果融合阶段。

RAG AI 搜索 Embedding 向量数据库模型评估

阿里巴巴 / 后端开发

图纸类视觉内容没有文本描述时，如何依托视觉特征、多模态 Embedding 和向量检索实现精准召回？

这题考无文本图纸检索系统设计：要能从图纸预处理、视觉和多模态 embedding、向量索引、混合召回、重排、评估和工程更新链路讲清楚如何提高精准召回。

多模态学习 Embedding 向量数据库计算机视觉 AI 搜索 RAG

快手 / 后端开发

RAG 中既然向量检索已经计算相似度，为什么还需要 Cross-Encoder 重排？

这道题考察 RAG 检索链路中双塔向量召回和 Cross-Encoder 重排的职责边界。好的回答要说明向量检索适合在大规模语料上做低成本粗召回，但它把 query 和文档分别编码，主要比较全局语义相似度，难以精细判断短语匹配、否定关系、字段约束、时效和答案可用性。Cross-Encoder 把 query 与候选片段一起输入模型，可以做 token 级交互和上下文相关判断，因此通常用于小候选集精排。回答还应覆盖成本、延迟、候选规模、失败模式、评估指标和何时不需要重排。

RAG Embedding AI 搜索模型评估系统设计

字节跳动 / 后端开发

VikingDB 这类向量数据库如何设计核心链路，向量写入、ANN 索引、元数据过滤和查询召回如何协同？

这道题考察对向量数据库核心链路的系统设计能力，而不是背某个产品未公开实现。回答要从写入、向量化、分片、持久化、ANN 索引构建、增量更新、元数据过滤、查询召回、重排和运维指标串起来，说明向量、原始文档、元数据和索引如何保持一致。关键是讲清近似召回与过滤条件的协同：先过滤、后过滤、混合过滤各有什么代价；写入与索引的实时性、删除更新、分布式扩展、一致性和评估指标如何设计。

向量数据库 Embedding AI 搜索系统设计可扩展性性能排查

京东 / 后端开发

文本搜图场景如何设计图片搜索系统，让用户搜“小狗”时能召回包含小狗的图片？

文本搜图系统要让用户输入“小狗”时召回包含小狗的图片，核心不是只按文件名搜索，而是建立图片内容理解、文本语义表示、索引召回和排序评估的完整链路。图片侧需要离线或实时提取对象标签、检测框、caption、OCR、视觉向量和多模态向量；查询侧需要把文本解析成语义向量和关键词；召回侧结合倒排索引、向量检索和元数据过滤；排序侧再按语义匹配、对象置信度、图片质量和用户意图重排。

计算机视觉多模态学习 Embedding AI 搜索系统设计向量数据库

美团 / 算法

推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模？

这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明：Transformer 适合把用户历史行为编码成带上下文的序列表征，DIN 的价值在于针对当前候选物品做 target-aware attention；工程上不能只拿一个全局向量，要处理时间因果、候选量、缓存、延迟和线上线下一致。

推荐系统 Transformer 注意力机制 Embedding 模型训练

美团 / 算法

Word2Vec 负采样为什么能加速训练，训练目标如何理解？

这道题考察 Word2Vec 训练目标的本质。负采样不是简单少算几个词，而是把 full softmax 的大词表多分类问题改成真实共现与噪声共现的二分类学习，每个正样本只更新少量负例，从而把复杂度从 O(|V|) 降到 O(K)，同时学到可用于相似性和共现关系的 embedding。

Embedding 模型训练神经网络模型评估

百度 / 算法

推荐召回中 Word2Vec 召回具体怎么做，训练样本和近邻检索如何设计？

这道题考察 item2vec 召回的完整链路。好答案要从行为序列构造、样本窗口、负采样、向量训练、ANN 建索引、线上 seed 扩展、过滤去重、融合排序和指标验证讲起，而不是只说用 Word2Vec 算相似 item。

同题还出现在 1 个公司岗位

推荐系统 Embedding 向量数据库模型训练

百度 / 算法

推荐系统里的基于深度模型召回怎么做，如何与 ItemCF 或 Word2Vec 召回配合？

这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量，如何用 ANN 服务大规模候选，如何与 ItemCF、Word2Vec 等通道互补，以及负样本、偏差、版本、索引和指标如何治理。

推荐系统 Embedding 向量数据库神经网络可扩展性

美团 / 算法

Transformer 为什么使用正弦/余弦位置编码，相比可学习位置向量有哪些好处和局限？

这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序，再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质，同时承认固定绝对位置编码不等于长上下文能力，现代模型常用 RoPE、ALiBi 或相对位置方法。

Transformer 注意力机制 Embedding 大语言模型

小米 / 算法

BERT 的 token、segment、position embedding 为什么通常相加而不是 concat？

这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加，是为了把词义、句子归属和位置注入同一个 hidden space，保持后续 Transformer 维度、参数量和残差结构稳定；concat 虽然看似保留边界，但会放大后续 Q/K/V、FFN 参数和推理成本，通常收益不明确。

Transformer Embedding 大语言模型神经网络

美团 / 后端开发

RAG 和 Embedding 分别是什么，在大模型应用中各自解决什么问题？

这道题看似是定义题，实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量，RAG 是检索增强生成架构；RAG 常用 embedding 做召回，但不等于向量库加大模型，还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。

RAG Embedding 大语言模型向量数据库 AI Agent

Cider / 算法

在商品库中如何快速找出相似商品描述，倒排索引、向量召回和 ANN 检索各适合什么场景？

这道题考商品文本检索的工程设计。好答案要先定义“相似”是近重复、同款、替代品还是语义相关，再比较倒排索引、向量召回和 ANN 的机制、成本、召回质量、实时更新和线上评估。

AI 搜索向量数据库 Embedding 推荐系统模型评估

腾讯 / 算法

BERT 通常如何做分词，WordPiece 如何处理未登录词，特殊 token 在输入构造中有什么作用？

这题考 BERT 输入构造的基础细节。答案要说明 BERT 通常先做 BasicTokenizer，再做 WordPiece 子词切分；WordPiece 用最长匹配处理词表内子词，无法拆解时用 [UNK]；同时讲清 [CLS]、[SEP]、[MASK]、[PAD]、attention mask 和 token type ids 的作用。

Transformer Embedding 文本分类

快手 / 算法

SIM 在推荐系统长序列兴趣建模中改进了什么问题？

这题考推荐系统长序列兴趣建模的核心矛盾。SIM 改进的问题不是多任务学习本身，而是传统 DIN/DIEN 等模型通常只能使用较短历史行为，直接建模超长序列又计算重、噪声多、目标相关性弱。

推荐系统算法模型训练 Embedding

腾讯 / 算法

基于商品属性 Embedding 的推荐召回如何设计，如何处理属性特征、向量索引和冷启动？

这道题考察的是候选人能否把“商品属性 Embedding”从一个模糊向量概念，拆成一条完整召回链路。商品属性包括类目、品牌、价格带、标签、文本描述、图片特征、商家、地域、质量分等结构化和非结构化信息。设计时要先定义属性 schema 和清洗规则，再把稀疏属性编码成 item embedding，构建 ANN 向量索引，在线用用户画像、最近行为或 query embedding 召回相似商品，并处理过滤、去重、冷启动、实时更新和效果评估。好的回答要强调它适合新商品、长尾商品和行为稀疏场景，但不能完全替代协同过滤；属性相似不等于用户会转化，仍需要后续排序和实验验证。

推荐系统 Embedding 特征工程向量数据库

腾讯 / 算法