知识点标签

向量数据库面试题解析

向量数据库相关面试题,覆盖向量检索、RAG、索引结构、召回和工程取舍。

37 道题 4 个岗位 12 个公司

向量数据库相关面试题

推荐系统中引入向量索引召回时,在线 serving 链路应该如何改造?

这道题考察的不是向量索引原理,而是把向量召回接入推荐在线 serving 后,链路、模块边界、延迟、降级、索引更新和实验评估应该怎样设计。回答要把它放在召回层讲清楚,并说明 query vector 如何生成、ANN 服务如何调用、候选如何回到后续粗排/精排。

同题还出现在 2 个公司岗位

RAG 处理 PDF 知识库时,如何设计切片、分页元数据和检索链路来减少答非所问?

这题考察 PDF 知识库 RAG 的端到端设计:要用结构化解析保留标题、页码和版面语义,按文档结构切 chunk 并带 page span metadata,通过召回、重排和上下文组装减少答非所问,并用 badcase 闭环持续修正切片与检索链路。

同公司岗位有 2 条面经记录

RAG 为什么要引入父子索引,如何兼顾小粒度召回和大粒度上下文回填?

这题考的是 RAG 检索粒度设计:小 chunk 更容易被向量或关键词召回命中,但单独放进上下文时可能缺少标题、章节、定义、前提和表格上下文;父子索引用子块做高精度召回,用父文档或父章节做证据回填,从而兼顾召回命中率、答案可读性和上下文预算。

RAG 检索中为什么要混合 BM25 和向量召回,融合权重或比例如何设置和评估?

这题考 sparse+dense hybrid retrieval 的工程判断:BM25 擅长精确词项、专名、数字、错误码和短查询,向量召回擅长语义相近、同义表达和自然语言问题。融合比例不是拍脑袋固定值,而要根据 query 类型、离线指标、线上反馈、延迟成本和 badcase 分布动态调优。

同题还出现在 1 个公司岗位

生产级 RAG 的数据解析与入库流水线如何设计,如何处理 PDF、DOCX、表格、图片和多格式文档?

生产级 RAG 的数据解析与入库流水线应从文件接入、格式识别、内容解析、结构保留、规范化切分、embedding、索引落库、权限和质量监控全链路设计。PDF、DOCX、表格、图片、Markdown、TXT 和富文本的解析策略不同:PDF 要区分数字文本和扫描件,DOCX 要保留标题层级和表格,表格要理解 sheet、表头和单元格关系,图片要 OCR 或生成视觉描述,多格式文档要保留统一的 document、section、chunk 和 asset 元数据。入库侧要支持幂等、版本、增量更新、失败重试、死信队列、ACL 过滤、向量库和关键词索引协同,以及可回溯的解析证据。

向量数据库检索到语义相关但时间过久的历史信息时,RAG 系统应如何判断能否使用?

这道题考察 RAG 系统面对“语义相关但时间过久”的向量检索结果时,如何把相关性判断升级为证据可用性判断。回答要说明不能只看 embedding 分数,而要结合问题的时效敏感度、文档时间戳、版本、生效范围、来源权威性、与新证据的冲突情况和业务风险来决定使用、降权、补检、拒答或提示不确定。好的方案还要覆盖元数据过滤、时间衰减、动态检索、冲突检测、评估指标和上线监控。

VikingDB 这类向量数据库如何设计核心链路,向量写入、ANN 索引、元数据过滤和查询召回如何协同?

这道题考察对向量数据库核心链路的系统设计能力,而不是背某个产品未公开实现。回答要从写入、向量化、分片、持久化、ANN 索引构建、增量更新、元数据过滤、查询召回、重排和运维指标串起来,说明向量、原始文档、元数据和索引如何保持一致。关键是讲清近似召回与过滤条件的协同:先过滤、后过滤、混合过滤各有什么代价;写入与索引的实时性、删除更新、分布式扩展、一致性和评估指标如何设计。

文本搜图场景如何设计图片搜索系统,让用户搜“小狗”时能召回包含小狗的图片?

文本搜图系统要让用户输入“小狗”时召回包含小狗的图片,核心不是只按文件名搜索,而是建立图片内容理解、文本语义表示、索引召回和排序评估的完整链路。图片侧需要离线或实时提取对象标签、检测框、caption、OCR、视觉向量和多模态向量;查询侧需要把文本解析成语义向量和关键词;召回侧结合倒排索引、向量检索和元数据过滤;排序侧再按语义匹配、对象置信度、图片质量和用户意图重排。

RAG 和 Embedding 分别是什么,在大模型应用中各自解决什么问题?

这道题看似是定义题,实际考察大模型应用的知识接入链路。Embedding 是把对象映射成可计算的语义向量,RAG 是检索增强生成架构;RAG 常用 embedding 做召回,但不等于向量库加大模型,还需要文档切分、索引、混合检索、重排、权限、引用、拒答、评估和监控。

RAG 知识库有十几万文档时,如何设计切片、索引、召回和增量更新,避免检索质量与性能下降?

这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库,而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能,说明如何避免召回变差、延迟变高、索引过期和重复内容污染。

构建 AI Agent 时,Memory 机制通常如何分层设计,短期上下文、长期记忆和检索注入分别解决什么问题?

这题考察的是候选人是否理解 Agent Memory 不是一个简单向量库,而是一套分层状态管理和检索注入机制。回答要区分短期上下文、工作记忆、长期记忆、外部知识检索和写入更新策略,并说明每层解决的问题、成本权衡、失效模式和评估方法。

基于商品属性 Embedding 的推荐召回如何设计,如何处理属性特征、向量索引和冷启动?

这道题考察的是候选人能否把“商品属性 Embedding”从一个模糊向量概念,拆成一条完整召回链路。商品属性包括类目、品牌、价格带、标签、文本描述、图片特征、商家、地域、质量分等结构化和非结构化信息。设计时要先定义属性 schema 和清洗规则,再把稀疏属性编码成 item embedding,构建 ANN 向量索引,在线用用户画像、最近行为或 query embedding 召回相似商品,并处理过滤、去重、冷启动、实时更新和效果评估。好的回答要强调它适合新商品、长尾商品和行为稀疏场景,但不能完全替代协同过滤;属性相似不等于用户会转化,仍需要后续排序和实验验证。