可扩展性面试题解析

标签题目

可扩展性相关面试题

向量数据库在 AI 应用中数据量增大时，如何扩展索引、分片和召回性能？

这题考向量库从小规模知识库增长到大规模检索服务时的扩展思路。回答要覆盖容量评估、索引选择、分片分区、过滤与召回、在线更新、评估和成本延迟取舍。

VikingDB 这类向量数据库如何设计核心链路，向量写入、ANN 索引、元数据过滤和查询召回如何协同？

这道题考察对向量数据库核心链路的系统设计能力，而不是背某个产品未公开实现。回答要从写入、向量化、分片、持久化、ANN 索引构建、增量更新、元数据过滤、查询召回、重排和运维指标串起来，说明向量、原始文档、元数据和索引如何保持一致。关键是讲清近似召回与过滤条件的协同：先过滤、后过滤、混合过滤各有什么代价；写入与索引的实时性、删除更新、分布式扩展、一致性和评估指标如何设计。

向量数据库 Embedding AI 搜索系统设计可扩展性性能排查

美团 / 后端开发

当 Agent 有 100 个 Tool 时，如何做工具分组、动态子集检索、schema 治理、监控和 meta-tool/Skill 收口？

这题考的是大规模工具接入后的 Agent 治理能力。100 个 Tool 不能简单全部塞进模型上下文，否则会带来选择混乱、token 成本、schema 冲突、误调用和监控不可解释。好的回答应从工具分类、检索式候选集、契约治理、调用观测和能力收口几层展开。

同题还出现在 1 个公司岗位

AI Agent 系统设计可扩展性工作流服务治理

百度 / 算法

推荐系统多路召回的候选分数能直接相加吗，如何做归一化、配额和融合？

这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义：cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。

推荐系统模型评估可扩展性特征工程

百度 / 算法

推荐系统里的基于深度模型召回怎么做，如何与 ItemCF 或 Word2Vec 召回配合？

这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量，如何用 ANN 服务大规模候选，如何与 ItemCF、Word2Vec 等通道互补，以及负样本、偏差、版本、索引和指标如何治理。

推荐系统 Embedding 向量数据库神经网络可扩展性

快手 / 算法

单机多卡和多机多卡训练的核心差异是什么，如何根据互联拓扑、通信开销和并行策略做选择？

这道题考察分布式训练的系统判断。单机多卡和多机多卡的差异不只是 GPU 数，而是互联拓扑、通信延迟、带宽、故障域、调度、存储和并行策略。好答案要能按显存瓶颈、计算/通信比、batch、模型规模和网络条件选择 DDP、FSDP/ZeRO、张量并行、流水线并行或组合方案。

同题还出现在 1 个公司岗位

模型训练 GPU 可扩展性性能排查问题排查

Cider / 算法

训练好的 AI 模型线上推理延迟高时，如何用量化、剪枝、TensorRT 和服务链路优化提速？

这道题考模型部署优化。高质量回答要先定位瓶颈，再分模型压缩、推理引擎、GPU 执行、批处理和服务链路逐层优化，并说明精度、吞吐、P99 延迟和稳定性的取舍。

大模型推理性能排查性能分析 GPU 可扩展性

快手 / C/C++

超大模型部署到计算集群时，如何按计算图切分并做分布式模型管理？

这题考超大模型部署系统设计。关键是把模型表示为计算图，按依赖、内存、计算量、通信和 SLA 做图切分与设备放置，再用分布式模型管理处理分片版本、加载、路由、健康检查、灰度和回滚。

分布式系统系统设计性能排查可扩展性服务治理

美团 / 后端开发

RAG 知识库有十几万文档时，如何设计切片、索引、召回和增量更新，避免检索质量与性能下降？

这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库，而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能，说明如何避免召回变差、延迟变高、索引过期和重复内容污染。

RAG 向量数据库可扩展性模型评估

蚂蚁集团 / 数据分析

在 Hive 中有一个城市百万级经纬度数据，如何做空间聚类，并兼顾距离计算、分区分桶、性能和结果验证？

这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案，而不是只说一个算法名。好的回答要先明确聚类目标和距离口径，再选择网格、Geohash、KMeans 或 DBSCAN 等方法，并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离，把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。

数据分析统计学特征工程可扩展性模型评估

滴滴 / 后端开发

已有一百万个关键词时，如何设计输入联想推荐，支持前缀匹配、热度排序、更新、内存控制和低延迟返回？

一百万关键词的输入联想可以用 Trie/压缩 Trie/FST 或有序数组前缀检索做候选召回，再用每个前缀的 TopK 热词缓存、实时热度增量、敏感过滤和多级缓存实现低延迟、可更新、可控内存的推荐服务。

数据结构搜索产品可扩展性推荐系统性能排查

字节跳动 / 算法

大流量业务想利用 3B 模型效果但不能实时调用时，如何设计离线推理、特征/结果缓存、蒸馏或轻量模型接力方案，并验证效果、时延和成本？

这题考察大流量系统中如何利用 3B 模型效果而不让实时链路承担模型成本。核心方案是离线推理、特征或结果缓存、在线轻量模型接力、蒸馏和分层召回排序，并用效果、时延、成本、覆盖率和新鲜度验证。

大语言模型大模型推理性能排查模型评估可扩展性

阿里巴巴 / AI 应用开发

高并发场景下如何设计 Agent 服务的弹性伸缩、核心监控指标和告警策略？

这题考生产级 Agent 服务治理。回答要把弹性伸缩、监控指标、告警策略和容量保护结合起来，而不是只讲加机器。

AI Agent 可扩展性可观测性服务治理