标签题目
Embedding相关面试题第 2 页
RAG 检索召回无关内容时,如何从 query rewrite、混合检索、rerank、过滤和拒答机制处理?
这题考察候选人能否把 RAG 无关召回拆成可诊断、可治理、可评估的检索链路问题,而不是只说调提示词或换模型。
同题还出现在 1 个公司岗位
生产级 RAG 的数据解析与入库流水线如何设计,如何处理 PDF、DOCX、表格、图片和多格式文档?
生产级 RAG 的数据解析与入库流水线应从文件接入、格式识别、内容解析、结构保留、规范化切分、embedding、索引落库、权限和质量监控全链路设计。PDF、DOCX、表格、图片、Markdown、TXT 和富文本的解析策略不同:PDF 要区分数字文本和扫描件,DOCX 要保留标题层级和表格,表格要理解 sheet、表头和单元格关系,图片要 OCR 或生成视觉描述,多格式文档要保留统一的 document、section、chunk 和 asset 元数据。入库侧要支持幂等、版本、增量更新、失败重试、死信队列、ACL 过滤、向量库和关键词索引协同,以及可回溯的解析证据。
RAG 处理大表格时,如何切块、限流和错峰,避免索引写入与消息队列被压垮?
这题考的是候选人能否把大表格 RAG 从“把每一行都扔进 embedding 和向量库”升级为可控的数据管道:先减少无效 chunk,再用限流、批量、队列削峰、错峰调度和可观测性保护索引系统与消息队列。
RAG 中 query rewrite、HyDE 和 RRF 分别解决什么问题,如何接入混合检索链路?
这题考的是候选人是否能区分 query rewrite、HyDE 和 RRF 在混合检索中的职责:rewrite 改善查询表达,HyDE 用假设答案拉近语义空间,RRF 融合多路召回结果,它们分别作用在召回前、向量查询构造和多路结果融合阶段。
图纸类视觉内容没有文本描述时,如何依托视觉特征、多模态 Embedding 和向量检索实现精准召回?
这题考无文本图纸检索系统设计:要能从图纸预处理、视觉和多模态 embedding、向量索引、混合召回、重排、评估和工程更新链路讲清楚如何提高精准召回。
RAG 中既然向量检索已经计算相似度,为什么还需要 Cross-Encoder 重排?
这道题考察 RAG 检索链路中双塔向量召回和 Cross-Encoder 重排的职责边界。好的回答要说明向量检索适合在大规模语料上做低成本粗召回,但它把 query 和文档分别编码,主要比较全局语义相似度,难以精细判断短语匹配、否定关系、字段约束、时效和答案可用性。Cross-Encoder 把 query 与候选片段一起输入模型,可以做 token 级交互和上下文相关判断,因此通常用于小候选集精排。回答还应覆盖成本、延迟、候选规模、失败模式、评估指标和何时不需要重排。
VikingDB 这类向量数据库如何设计核心链路,向量写入、ANN 索引、元数据过滤和查询召回如何协同?
这道题考察对向量数据库核心链路的系统设计能力,而不是背某个产品未公开实现。回答要从写入、向量化、分片、持久化、ANN 索引构建、增量更新、元数据过滤、查询召回、重排和运维指标串起来,说明向量、原始文档、元数据和索引如何保持一致。关键是讲清近似召回与过滤条件的协同:先过滤、后过滤、混合过滤各有什么代价;写入与索引的实时性、删除更新、分布式扩展、一致性和评估指标如何设计。
文本搜图场景如何设计图片搜索系统,让用户搜“小狗”时能召回包含小狗的图片?
文本搜图系统要让用户输入“小狗”时召回包含小狗的图片,核心不是只按文件名搜索,而是建立图片内容理解、文本语义表示、索引召回和排序评估的完整链路。图片侧需要离线或实时提取对象标签、检测框、caption、OCR、视觉向量和多模态向量;查询侧需要把文本解析成语义向量和关键词;召回侧结合倒排索引、向量检索和元数据过滤;排序侧再按语义匹配、对象置信度、图片质量和用户意图重排。
推荐系统中如何把 Transformer 行为序列表征接入 DIN 式目标兴趣建模?
这道题考察的是推荐序列建模和目标兴趣抽取的组合设计。高质量回答要说明:Transformer 适合把用户历史行为编码成带上下文的序列表征,DIN 的价值在于针对当前候选物品做 target-aware attention;工程上不能只拿一个全局向量,要处理时间因果、候选量、缓存、延迟和线上线下一致。
Word2Vec 负采样为什么能加速训练,训练目标如何理解?
这道题考察 Word2Vec 训练目标的本质。负采样不是简单少算几个词,而是把 full softmax 的大词表多分类问题改成真实共现与噪声共现的二分类学习,每个正样本只更新少量负例,从而把复杂度从 O(|V|) 降到 O(K),同时学到可用于相似性和共现关系的 embedding。
推荐召回中 Word2Vec 召回具体怎么做,训练样本和近邻检索如何设计?
这道题考察 item2vec 召回的完整链路。好答案要从行为序列构造、样本窗口、负采样、向量训练、ANN 建索引、线上 seed 扩展、过滤去重、融合排序和指标验证讲起,而不是只说用 Word2Vec 算相似 item。
同题还出现在 1 个公司岗位
推荐系统里的基于深度模型召回怎么做,如何与 ItemCF 或 Word2Vec 召回配合?
这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量,如何用 ANN 服务大规模候选,如何与 ItemCF、Word2Vec 等通道互补,以及负样本、偏差、版本、索引和指标如何治理。
Transformer 为什么使用正弦/余弦位置编码,相比可学习位置向量有哪些好处和局限?
这道题考察 Transformer 位置信息的基本原理和边界。好答案要先说明 self-attention 本身不感知顺序,再解释正弦/余弦位置编码的多频率、无参数、可按公式外推和相对位移线性性质,同时承认固定绝对位置编码不等于长上下文能力,现代模型常用 RoPE、ALiBi 或相对位置方法。
BERT 的 token、segment、position embedding 为什么通常相加而不是 concat?
这道题考察 BERT 输入层的维度和架构取舍。Token、segment、position embedding 相加,是为了把词义、句子归属和位置注入同一个 hidden space,保持后续 Transformer 维度、参数量和残差结构稳定;concat 虽然看似保留边界,但会放大后续 Q/K/V、FFN 参数和推理成本,通常收益不明确。
RAG 和 Embedding 分别是什么,在大模型应用中各自解决什么问题?
这道题看似是定义题,实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量,RAG 是检索增强生成架构;RAG 常用 embedding 做召回,但不等于向量库加大模型,还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。
在商品库中如何快速找出相似商品描述,倒排索引、向量召回和 ANN 检索各适合什么场景?
这道题考商品文本检索的工程设计。好答案要先定义“相似”是近重复、同款、替代品还是语义相关,再比较倒排索引、向量召回和 ANN 的机制、成本、召回质量、实时更新和线上评估。
BERT 通常如何做分词,WordPiece 如何处理未登录词,特殊 token 在输入构造中有什么作用?
这题考 BERT 输入构造的基础细节。答案要说明 BERT 通常先做 BasicTokenizer,再做 WordPiece 子词切分;WordPiece 用最长匹配处理词表内子词,无法拆解时用 [UNK];同时讲清 [CLS]、[SEP]、[MASK]、[PAD]、attention mask 和 token type ids 的作用。
SIM 在推荐系统长序列兴趣建模中改进了什么问题?
这题考推荐系统长序列兴趣建模的核心矛盾。SIM 改进的问题不是多任务学习本身,而是传统 DIN/DIEN 等模型通常只能使用较短历史行为,直接建模超长序列又计算重、噪声多、目标相关性弱。
基于商品属性 Embedding 的推荐召回如何设计,如何处理属性特征、向量索引和冷启动?
这道题考察的是候选人能否把“商品属性 Embedding”从一个模糊向量概念,拆成一条完整召回链路。商品属性包括类目、品牌、价格带、标签、文本描述、图片特征、商家、地域、质量分等结构化和非结构化信息。设计时要先定义属性 schema 和清洗规则,再把稀疏属性编码成 item embedding,构建 ANN 向量索引,在线用用户画像、最近行为或 query embedding 召回相似商品,并处理过滤、去重、冷启动、实时更新和效果评估。好的回答要强调它适合新商品、长尾商品和行为稀疏场景,但不能完全替代协同过滤;属性相似不等于用户会转化,仍需要后续排序和实验验证。
在检索增强或语义搜索链路中,Qwen3 Embedding 模型和 Qwen3 Reranker 模型分别解决什么问题?二者在输入输出、训练目标、召回/精排位置和延迟成本上有什么区别?
这道题考察语义检索/RAG 链路中双编码召回和交叉编码精排的差异。回答要讲清 Embedding 负责低成本召回,Reranker 负责高精度相关性重排,二者输入输出、训练目标和延迟成本不同。
如果 CLIP 主要学到全局图文对齐,如何优化它以提取更细粒度的视觉特征?
这道题考察对 CLIP 全局对比学习局限和细粒度视觉表征优化的理解。好的回答要从数据标注、区域/patch 对齐、损失设计、模型结构和评估任务多个层面改造。
在推荐系统中,双塔召回和精排在候选规模、特征复杂度、实时性和准确率上有什么差异?为什么精排通常更准,双塔如何支持用户侧向量实时更新?
这道题考察推荐系统召回与精排的职责边界。好的回答要解释双塔为什么适合大规模向量召回,精排为什么通常更准,以及用户侧向量实时更新如何工程落地。
RAG 文档发生局部更新时,如何通过增量索引避免全量重新向量化,并保证检索结果一致?
这题考生产级 RAG 数据更新。回答要讲文档版本、chunk 变更检测、增量 embedding、索引原子切换、删除 tombstone 和检索一致性。