标签题目
可扩展性相关面试题
向量数据库在 AI 应用中数据量增大时,如何扩展索引、分片和召回性能?
这题考向量库从小规模知识库增长到大规模检索服务时的扩展思路。回答要覆盖容量评估、索引选择、分片分区、过滤与召回、在线更新、评估和成本延迟取舍。
VikingDB 这类向量数据库如何设计核心链路,向量写入、ANN 索引、元数据过滤和查询召回如何协同?
这道题考察对向量数据库核心链路的系统设计能力,而不是背某个产品未公开实现。回答要从写入、向量化、分片、持久化、ANN 索引构建、增量更新、元数据过滤、查询召回、重排和运维指标串起来,说明向量、原始文档、元数据和索引如何保持一致。关键是讲清近似召回与过滤条件的协同:先过滤、后过滤、混合过滤各有什么代价;写入与索引的实时性、删除更新、分布式扩展、一致性和评估指标如何设计。
当 Agent 有 100 个 Tool 时,如何做工具分组、动态子集检索、schema 治理、监控和 meta-tool/Skill 收口?
这题考的是大规模工具接入后的 Agent 治理能力。100 个 Tool 不能简单全部塞进模型上下文,否则会带来选择混乱、token 成本、schema 冲突、误调用和监控不可解释。好的回答应从工具分类、检索式候选集、契约治理、调用观测和能力收口几层展开。
同题还出现在 1 个公司岗位
推荐系统多路召回的候选分数能直接相加吗,如何做归一化、配额和融合?
这道题考察多路召回的融合意识。不同通道的原始分数通常没有同一语义:cosine、共现分、热度、规则 rank 和模型分不可直接相加。好答案要把归一化、排序融合、校准、配额、去重、多通道命中特征、通道贡献和线上指标串起来。
推荐系统里的基于深度模型召回怎么做,如何与 ItemCF 或 Word2Vec 召回配合?
这道题考察深度召回的模型和工程边界。好的回答要说明双塔/DSSM/YouTube DNN 等模型如何学习 user/item 向量,如何用 ANN 服务大规模候选,如何与 ItemCF、Word2Vec 等通道互补,以及负样本、偏差、版本、索引和指标如何治理。
单机多卡和多机多卡训练的核心差异是什么,如何根据互联拓扑、通信开销和并行策略做选择?
这道题考察分布式训练的系统判断。单机多卡和多机多卡的差异不只是 GPU 数,而是互联拓扑、通信延迟、带宽、故障域、调度、存储和并行策略。好答案要能按显存瓶颈、计算/通信比、batch、模型规模和网络条件选择 DDP、FSDP/ZeRO、张量并行、流水线并行或组合方案。
同题还出现在 1 个公司岗位
训练好的 AI 模型线上推理延迟高时,如何用量化、剪枝、TensorRT 和服务链路优化提速?
这道题考模型部署优化。高质量回答要先定位瓶颈,再分模型压缩、推理引擎、GPU 执行、批处理和服务链路逐层优化,并说明精度、吞吐、P99 延迟和稳定性的取舍。
超大模型部署到计算集群时,如何按计算图切分并做分布式模型管理?
这题考超大模型部署系统设计。关键是把模型表示为计算图,按依赖、内存、计算量、通信和 SLA 做图切分与设备放置,再用分布式模型管理处理分片版本、加载、路由、健康检查、灰度和回滚。
RAG 知识库有十几万文档时,如何设计切片、索引、召回和增量更新,避免检索质量与性能下降?
这题考察大规模 RAG 知识库的工程扩展能力。十几万文档不是简单把文本塞进向量库,而要设计文档解析、切片策略、索引结构、召回链路、重排、增量更新、权限过滤、评估和性能优化。好的回答要同时覆盖质量和性能,说明如何避免召回变差、延迟变高、索引过期和重复内容污染。
在 Hive 中有一个城市百万级经纬度数据,如何做空间聚类,并兼顾距离计算、分区分桶、性能和结果验证?
这题考的是把百万级经纬度点在 Hive 环境里做成可落地的空间聚类方案,而不是只说一个算法名。好的回答要先明确聚类目标和距离口径,再选择网格、Geohash、KMeans 或 DBSCAN 等方法,并说明 Hive 里如何用分区分桶、邻域裁剪、两阶段距离计算和结果验证控制成本。核心原则是避免全量两两距离,把空间问题转成可分区、可局部比较、可抽样核验的数据处理流程。
已有一百万个关键词时,如何设计输入联想推荐,支持前缀匹配、热度排序、更新、内存控制和低延迟返回?
一百万关键词的输入联想可以用 Trie/压缩 Trie/FST 或有序数组前缀检索做候选召回,再用每个前缀的 TopK 热词缓存、实时热度增量、敏感过滤和多级缓存实现低延迟、可更新、可控内存的推荐服务。
大流量业务想利用 3B 模型效果但不能实时调用时,如何设计离线推理、特征/结果缓存、蒸馏或轻量模型接力方案,并验证效果、时延和成本?
这题考察大流量系统中如何利用 3B 模型效果而不让实时链路承担模型成本。核心方案是离线推理、特征或结果缓存、在线轻量模型接力、蒸馏和分层召回排序,并用效果、时延、成本、覆盖率和新鲜度验证。
高并发场景下如何设计 Agent 服务的弹性伸缩、核心监控指标和告警策略?
这题考生产级 Agent 服务治理。回答要把弹性伸缩、监控指标、告警策略和容量保护结合起来,而不是只讲加机器。