向量数据库面试题解析

生产级 RAG 的数据解析与入库流水线应从文件接入、格式识别、内容解析、结构保留、规范化切分、embedding、索引落库、权限和质量监控全链路设计。PDF、DOCX、表格、图片、Markdown、TXT 和富文本的解析策略不同：PDF 要区分数字文本和扫描件，DOCX 要保留标题层级和表格，表格要理解 sheet、表头和单元格关系，图片要 OCR 或生成视觉描述，多格式文档要保留统一的 document、section、chunk 和 asset 元数据。入库侧要支持幂等、版本、增量更新、失败重试、死信队列、ACL 过滤、向量库和关键词索引协同，以及可回溯的解析证据。

RAG Embedding 向量数据库 AI 搜索系统设计稳定性

快手 / 后端开发

RAG 处理大表格时，如何切块、限流和错峰，避免索引写入与消息队列被压垮？

这题考的是候选人能否把大表格 RAG 从“把每一行都扔进 embedding 和向量库”升级为可控的数据管道：先减少无效 chunk，再用限流、批量、队列削峰、错峰调度和可观测性保护索引系统与消息队列。

RAG Embedding 向量数据库消息队列稳定性性能排查

快手 / 后端开发

RAG 中 query rewrite、HyDE 和 RRF 分别解决什么问题，如何接入混合检索链路？

这题考的是候选人是否能区分 query rewrite、HyDE 和 RRF 在混合检索中的职责：rewrite 改善查询表达，HyDE 用假设答案拉近语义空间，RRF 融合多路召回结果，它们分别作用在召回前、向量查询构造和多路结果融合阶段。

RAG AI 搜索 Embedding 向量数据库模型评估

阿里巴巴 / 后端开发

图纸类视觉内容没有文本描述时，如何依托视觉特征、多模态 Embedding 和向量检索实现精准召回？

这题考无文本图纸检索系统设计：要能从图纸预处理、视觉和多模态 embedding、向量索引、混合召回、重排、评估和工程更新链路讲清楚如何提高精准召回。

多模态学习 Embedding 向量数据库计算机视觉 AI 搜索 RAG

快手 / 后端开发

向量数据库检索到语义相关但时间过久的历史信息时，RAG 系统应如何判断能否使用？

这道题考察 RAG 系统面对“语义相关但时间过久”的向量检索结果时，如何把相关性判断升级为证据可用性判断。回答要说明不能只看 embedding 分数，而要结合问题的时效敏感度、文档时间戳、版本、生效范围、来源权威性、与新证据的冲突情况和业务风险来决定使用、降权、补检、拒答或提示不确定。好的方案还要覆盖元数据过滤、时间衰减、动态检索、冲突检测、评估指标和上线监控。

RAG 向量数据库 AI 搜索稳定性系统设计

字节跳动 / 后端开发

VikingDB 这类向量数据库如何设计核心链路，向量写入、ANN 索引、元数据过滤和查询召回如何协同？

这道题考察对向量数据库核心链路的系统设计能力，而不是背某个产品未公开实现。回答要从写入、向量化、分片、持久化、ANN 索引构建、增量更新、元数据过滤、查询召回、重排和运维指标串起来，说明向量、原始文档、元数据和索引如何保持一致。关键是讲清近似召回与过滤条件的协同：先过滤、后过滤、混合过滤各有什么代价；写入与索引的实时性、删除更新、分布式扩展、一致性和评估指标如何设计。

向量数据库 Embedding AI 搜索系统设计可扩展性性能排查

京东 / 后端开发

文本搜图场景如何设计图片搜索系统，让用户搜“小狗”时能召回包含小狗的图片？

文本搜图系统要让用户输入“小狗”时召回包含小狗的图片，核心不是只按文件名搜索，而是建立图片内容理解、文本语义表示、索引召回和排序评估的完整链路。图片侧需要离线或实时提取对象标签、检测框、caption、OCR、视觉向量和多模态向量；查询侧需要把文本解析成语义向量和关键词；召回侧结合倒排索引、向量检索和元数据过滤；排序侧再按语义匹配、对象置信度、图片质量和用户意图重排。

计算机视觉多模态学习 Embedding AI 搜索系统设计向量数据库

百度 / 算法

推荐召回中 Word2Vec 召回具体怎么做，训练样本和近邻检索如何设计？

这道题考察 item2vec 召回的完整链路。好答案要从行为序列构造、样本窗口、负采样、向量训练、ANN 建索引、线上 seed 扩展、过滤去重、融合排序和指标验证讲起，而不是只说用 Word2Vec 算相似 item。

同题还出现在 1 个公司岗位

推荐系统 Embedding 向量数据库模型训练

百度 / 算法

推荐系统里的基于深度模型召回怎么做，如何与 ItemCF 或 Word2Vec 召回配合？

这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量，如何用 ANN 服务大规模候选，如何与 ItemCF、Word2Vec 等通道互补，以及负样本、偏差、版本、索引和指标如何治理。

推荐系统 Embedding 向量数据库神经网络可扩展性

美团 / 后端开发

RAG 和 Embedding 分别是什么，在大模型应用中各自解决什么问题？

这道题看似是定义题，实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量，RAG 是检索增强生成架构；RAG 常用 embedding 做召回，但不等于向量库加大模型，还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。

RAG Embedding 大语言模型向量数据库 AI Agent

Cider / 算法

在商品库中如何快速找出相似商品描述，倒排索引、向量召回和 ANN 检索各适合什么场景？

这道题考商品文本检索的工程设计。好答案要先定义“相似”是近重复、同款、替代品还是语义相关，再比较倒排索引、向量召回和 ANN 的机制、成本、召回质量、实时更新和线上评估。

AI 搜索向量数据库 Embedding 推荐系统模型评估

美团 / 后端开发

RAG 知识库有十几万文档时，如何设计切片、索引、召回和增量更新，避免检索质量与性能下降？

这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库，而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能，说明如何避免召回变差、延迟变高、索引过期和重复内容污染。

RAG 向量数据库可扩展性模型评估

拼多多 / 算法

构建 AI Agent 时，Memory 机制通常如何分层设计，短期上下文、长期记忆和检索注入分别解决什么问题？

这题考察的是候选人是否理解 Agent Memory 不是一个简单向量库，而是一套分层状态管理和检索注入机制。回答要区分短期上下文、工作记忆、长期记忆、外部知识检索和写入更新策略，并说明每层解决的问题、成本权衡、失效模式和评估方法。

AI Agent 大语言模型状态管理 RAG 向量数据库

腾讯 / 算法

基于商品属性 Embedding 的推荐召回如何设计，如何处理属性特征、向量索引和冷启动？

这道题考察的是候选人能否把“商品属性 Embedding”从一个模糊向量概念，拆成一条完整召回链路。商品属性包括类目、品牌、价格带、标签、文本描述、图片特征、商家、地域、质量分等结构化和非结构化信息。设计时要先定义属性 schema 和清洗规则，再把稀疏属性编码成 item embedding，构建 ANN 向量索引，在线用用户画像、最近行为或 query embedding 召回相似商品，并处理过滤、去重、冷启动、实时更新和效果评估。好的回答要强调它适合新商品、长尾商品和行为稀疏场景，但不能完全替代协同过滤；属性相似不等于用户会转化，仍需要后续排序和实验验证。

推荐系统 Embedding 特征工程向量数据库

中科闻歌 / 算法

RAG 系统上线时，向量数据库应选择实时增量更新还是离线批量刷新？本地部署架构如何搭建，并如何评估检索与生成效果？

这道题考察 RAG 系统从向量库更新、部署架构到效果评估的上线能力。回答要权衡实时增量和离线批刷，并覆盖本地部署组件、权限、回滚和检索/生成指标。

RAG 向量数据库模型评估

快手 / AI 应用开发

RAG 文档发生局部更新时，如何通过增量索引避免全量重新向量化，并保证检索结果一致？

这题考生产级 RAG 数据更新。回答要讲文档版本、chunk 变更检测、增量 embedding、索引原子切换、删除 tombstone 和检索一致性。

RAG 向量数据库 Embedding 一致性