知识点标签

可扩展性面试题解析

可扩展性相关面试题,覆盖容量增长、分片、扩容、性能退化和架构演进。

13 道题 5 个岗位 10 个公司

可扩展性相关面试题

VikingDB 这类向量数据库如何设计核心链路,向量写入、ANN 索引、元数据过滤和查询召回如何协同?

这道题考察对向量数据库核心链路的系统设计能力,而不是背某个产品未公开实现。回答要从写入、向量化、分片、持久化、ANN 索引构建、增量更新、元数据过滤、查询召回、重排和运维指标串起来,说明向量、原始文档、元数据和索引如何保持一致。关键是讲清近似召回与过滤条件的协同:先过滤、后过滤、混合过滤各有什么代价;写入与索引的实时性、删除更新、分布式扩展、一致性和评估指标如何设计。

当 Agent 有 100 个 Tool 时,如何做工具分组、动态子集检索、schema 治理、监控和 meta-tool/Skill 收口?

这题考的是大规模工具接入后的 Agent 治理能力。100 个 Tool 不能简单全部塞进模型上下文,否则会带来选择混乱、token 成本、schema 冲突、误调用和监控不可解释。好的回答应从工具分类、检索式候选集、契约治理、调用观测和能力收口几层展开。

同题还出现在 1 个公司岗位

单机多卡和多机多卡训练的核心差异是什么,如何根据互联拓扑、通信开销和并行策略做选择?

这道题考察分布式训练的系统判断。单机多卡和多机多卡的差异不只是 GPU 数,而是互联拓扑、通信延迟、带宽、故障域、调度、存储和并行策略。好答案要能按显存瓶颈、计算/通信比、batch、模型规模和网络条件选择 DDP、FSDP/ZeRO、张量并行、流水线并行或组合方案。

同题还出现在 1 个公司岗位

RAG 知识库有十几万文档时,如何设计切片、索引、召回和增量更新,避免检索质量与性能下降?

这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库,而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能,说明如何避免召回变差、延迟变高、索引过期和重复内容污染。

在 Hive 中有一个城市百万级经纬度数据,如何做空间聚类,并兼顾距离计算、分区分桶、性能和结果验证?

这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案,而不是只说一个算法名。好的回答要先明确聚类目标和距离口径,再选择网格、Geohash、KMeans 或 DBSCAN 等方法,并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离,把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。

大流量业务想利用 3B 模型效果但不能实时调用时,如何设计离线推理、特征/结果缓存、蒸馏或轻量模型接力方案,并验证效果、时延和成本?

这题考察大流量系统中如何利用 3B 模型效果而不让实时链路承担模型成本。核心方案是离线推理、特征或结果缓存、在线轻量模型接力、蒸馏和分层召回排序,并用效果、时延、成本、覆盖率和新鲜度验证。