大模型推理面试题解析

从 MHA 到 MLA，注意力机制为什么要改进，DeepSeek MLA 解决什么问题？

这题考注意力机制从效果优先到推理效率优先的演进，重点是 KV cache 压力、MHA/MQA/GQA/MLA 的取舍和工程评估。

同题还出现在 1 个公司岗位

大语言模型注意力机制 Transformer 大模型推理

MoE 一般加在大模型哪里，从训练和推理角度有什么收益与代价？

这题考 LLM MoE 的位置和训练推理取舍，回答要讲清 FFN 专家、router、稀疏激活、负载均衡和服务成本。

同题还出现在 1 个公司岗位

大语言模型模型训练大模型推理系统设计模型评估

腾讯 / 后端开发

大模型推理中 Prefill/Decode（PD）分离部署为什么能提升处理速度？

这题考 LLM serving 的工作负载拆分，回答要讲清 prefill 和 decode 的差异、分离部署收益、KV cache 交接和适用边界。

大语言模型大模型推理性能排查系统设计

阿里巴巴 / 后端开发

Agent 项目如何选择底层模型，依据和验证方法是什么？

这题考 Agent 项目的底层模型选型。答案要从任务类型、工具调用、结构化输出、上下文、延迟成本、安全、评测集、灰度和 fallback 路由来讲。

AI Agent 大语言模型模型评估大模型推理稳定性系统设计

强模型直连与本地模型 + RAG + Prompt 优化，应如何按成本、延迟、安全和效果取舍？

这题考强模型直连与本地模型加 RAG 和 Prompt 优化之间的架构取舍，回答要按效果、成本、延迟、安全、可控性和运维复杂度做决策，而不是给单一答案。

大语言模型 RAG Prompt 工程向量数据库大模型推理系统设计

LLM 服务在 500 并发下如何把 TTFT P99 从 3s 优化到 1.5s？

这题考高并发 LLM 服务的首 token 长尾优化，回答要先建立可观测性，再从排队、调度、prefill/decode、批处理、KV 缓存、prompt 长度、容量和流式链路逐层处理。

性能测试性能排查可观测性大语言模型大模型推理 TTFT

PagedAttention 如何改善 LLM 长上下文推理的 KV Cache 管理？

这题考 PagedAttention 如何改善长上下文 LLM 推理中的 KV Cache 管理，回答重点是块化分页、减少碎片、支持连续批处理和提升显存利用率。

同题还出现在 1 个公司岗位

大语言模型大模型推理 vLLM

LLM 多卡并行推理中，显存占用和通信开销如何影响吞吐与延迟？

这题考 LLM 多卡并行推理的性能瓶颈，回答重点是权重显存、KV Cache、prefill/decode 差异、并行切分通信、批处理调度和长尾延迟。

性能测试性能排查可观测性大语言模型大模型推理分布式系统

LLM 流式输出如何设计断点续传、停止生成和 Token 计费？

这题考 LLM 流式输出的服务端语义设计，回答重点是断点续传、停止生成、幂等状态、Token 计费边界和前后端一致性。

同题还出现在 1 个公司岗位

计算机网络大语言模型大模型推理稳定性系统设计

LLM 推理中 Continuous Batching 和 Prefix Caching 如何影响请求切分、batch 维度和吞吐/延迟取舍？

这题考 LLM 推理调度中的 Continuous Batching 和 Prefix Caching，回答重点是请求在 prefill/decode 阶段如何切分、按什么维度组 batch，以及吞吐和延迟如何取舍。

大语言模型大模型推理性能排查负载均衡系统设计

LLM 训练或推理中 FP8 和 BF16 如何按吞吐、显存和稳定性取舍？

这题考 LLM 训练或推理中 FP8 和 BF16 的精度格式取舍，回答重点是显存、带宽、吞吐、数值稳定性和工程校准，不应断言所有 DeepSeek 或 Qwen 版本的内部实现。

大语言模型大模型推理模型训练性能排查内存管理

月之暗面 / 算法

FlashAttention 的核心原理是什么，为什么能降低长序列 attention 的显存和 IO 开销？

这题考 FlashAttention 的 IO-aware 原理，回答重点是它不改变标准 attention 数学结果，而是通过分块、在线 softmax 和重计算减少显存读写。

同题还出现在 1 个公司岗位

大语言模型 Transformer 注意力机制大模型推理性能排查

分布式 MoE 中 Gate 网络如何完成路由通信，容易出现哪些通信瓶颈？

这题考分布式 MoE 的真实执行链路，重点不是只说 Gate 选专家，而是讲清 token 路由、all-to-all dispatch、专家计算、结果回传以及负载不均带来的通信瓶颈。

大语言模型分布式系统大模型推理模型训练

当 MoE 专家数量增至上千时，如何优化路由决策延迟？

这题考 MoE 专家规模扩大后的路由扩展性，回答要把 router 计算、top-k 选择、候选专家缩小、设备映射和 dispatch 准备放在一条低延迟链路里分析。

大语言模型大模型推理性能测试分布式系统

MoE 专家数量远超过 GPU 数量时，专家调度和放置策略如何设计？

这题考专家并行的资源放置和运行时调度，回答要围绕专家驻留、冷热专家、token 分桶、负载均衡、通信拓扑和训练推理差异展开。

大语言模型分布式系统大模型推理模型训练

Soft MoE 和 Hard MoE 有什么区别，为什么工程上更常见 Hard MoE？

这题考 MoE 路由形式和工程取舍，重点是区分软混合的平滑训练优势与硬路由的稀疏计算优势，并解释为什么大模型部署更偏向 Hard MoE。

大语言模型模型训练大模型推理

LLM 推理算子优化中，Memory Coalescing 和 Bank Conflict 分别是什么，如何影响显存访问效率？

这题考 CUDA 访存优化在 LLM 推理算子里的基本功。回答要把 GMEM 的连续合并访问、SMEM 的 bank 并行访问、warp 级访问模式和 profiling 现象连起来，而不是只背两个定义。

大语言模型大模型推理 CUDA 性能排查内存管理

LLM 推理算子中，Tensor Core、WMMA 和 MMA 分别是什么，工程上如何选择使用层级？

这题考候选人是否理解 NVIDIA GPU 矩阵乘加的硬件、CUDA C++ 抽象和更底层指令接口。回答要能说明 Tensor Core 是硬件单元，WMMA 是较高层 CUDA API，MMA 是更贴近指令和 PTX 的矩阵乘加操作。

性能测试性能排查可观测性大语言模型大模型推理 CUDA

LLM 推理算子变慢时，如何判断瓶颈是 Memory Bound 还是 Compute Bound？

这题考算子性能诊断方法。回答要从理论 roofline、算术强度、实际 profiler 指标、stall reason 和优化方向闭环判断，而不是只说“看 GPU 利用率”。

大语言模型大模型推理性能排查性能分析 CUDA

单机多卡 LLM 推理中的分布式 GEMM 如何切分矩阵，并完成跨 GPU 通信？

这题考 tensor parallel 下 GEMM 切分和 collective communication 的基本工程理解。回答要能把矩阵维度切分、局部计算、AllReduce/AllGather/ReduceScatter、通信计算重叠和推理场景约束讲清楚。

大语言模型大模型推理分布式系统 GPU 矩阵乘法

LLM 推理服务如何做流量调度，兼顾模型副本、队列长度、KV 资源和延迟 SLO？

这题考 LLM 推理服务的请求路由和服务治理。回答要围绕模型副本选择、prefill/decode 队列、KV cache 资源、batching、优先级、SLO 和故障降级展开，避免泛泛而谈负载均衡。

大语言模型大模型推理负载均衡性能排查服务治理

LLM 长上下文推理中，KV Cache 压缩如何降低显存占用，和 Prefix Cache 的作用有什么区别？

这题考长上下文 LLM 推理中的显存管理。回答要把 Prefix Cache 的跨请求前缀复用和 KV Cache 压缩的单次/多次请求显存降载区分开，再说明压缩策略、精度损失、服务集成和评估指标。

大语言模型大模型推理 KV Cache 内存管理性能排查

阿里巴巴 / 算法

Qwen 这类大模型如何做压缩和蒸馏，评估时应关注哪些效果损失？

这题考大模型压缩与蒸馏的端到端方法论，关键是同时说明模型怎么变小、能力怎么迁移、成本怎么下降，以及哪些能力和安全边界最容易损失。

通义千问大语言模型模型训练模型微调模型评估大模型推理

AI Infra 中拿到一个慢算子时，如何判断是否值得优化，并选择 kernel 优化、算子融合、图优化或数据布局调整？

这题考慢算子优化的工程决策树，重点不是单独判断 Memory Bound 或 Compute Bound，而是先判断投入是否值得，再把 profile 证据映射到 kernel、融合、图优化和 layout 等不同路径。

大语言模型大模型推理性能排查性能分析 CUDA

接手一个未量化的大模型时，如何推进量化方案选择、校准、精度评估和推理性能迭代？

这题考未量化大模型的量化 rollout 方法论，重点是从部署目标、量化范围、校准集、kernel 支持、质量回归、性能收益到灰度回滚形成闭环，而不是背几个量化名词。

同题还出现在 1 个公司岗位

大语言模型大模型推理性能排查内存管理 GPU

AWQ 等权重量化引入反量化步骤后，为什么仍可能让 LLM 推理整体变快？

这题考权重量化的反直觉加速机制，核心是解释额外 dequant 计算为什么可能小于权重带宽、显存占用、cache 命中和融合带来的收益，同时说明它只在合适瓶颈和 kernel 支持下成立。

大语言模型大模型推理性能排查内存管理 CUDA GPU

推理优化中为什么常把动态图转成静态图再做算子融合，转换开销如何评估和控制？

这题考动态图和静态图在推理优化中的取舍，重点是静态图提供全局依赖、shape、pattern 和内存信息，便于融合和调度优化；转换开销要靠缓存、shape bucketing、warmup、fallback 和端到端摊销控制。

大语言模型大模型推理性能排查 CUDA 系统设计

百度 / C/C++

把 FP16 权重量化为 INT8 并保留 FP32 scale 时，scale factor 如何计算，为什么常用绝对值最大值定标？

这题考权重量化的基础闭环：从 FP16 到 signed INT8 的映射、scale 的计算、absmax 定标的原因、反量化误差，以及 per-tensor/per-channel 和 outlier 取舍。

大语言模型大模型推理 GPU 矩阵乘法性能排查

非对称量化相比对称量化，在计算和反量化时会带来哪些额外开销与精度影响？

这题考 zero point 带来的计算差异。好答案要从量化公式展开到矩阵乘额外修正项、预计算可能性、性能代价，以及非零中心分布下的精度收益。

大语言模型大模型推理 GPU 矩阵乘法性能排查

快手 / C/C++

使用 CUTLASS 优化 GEMM/LLM 推理算子时，通常从 tile 划分、memory hierarchy、epilogue 融合和 Tensor Core 利用率哪些方向入手？

这题考候选人是否能把 CUTLASS 当成可配置的 GEMM/kernel 生成框架来理解：从问题规模、tile 层级、访存搬运、Tensor Core 指令形状、epilogue 融合和 profiling 闭环解释优化，而不是只说“用库会更快”。

CUDA GPU 矩阵乘法大模型推理性能分析

快手 / C/C++

针对特定 GPU 架构做算子优化是否值得，如何权衡性能收益、维护成本、可移植性和 fallback 方案？

这题考 GPU kernel 优化的工程取舍：不是问能不能榨干某一代硬件，而是问性能收益是否覆盖多架构维护、编译发布、回归矩阵和 fallback 成本。

CUDA GPU 性能分析大模型推理性能排查

百度 / C/C++

手写 CUDA All-Reduce/归约 kernel 时，如何设计线程内与 block 内归约，并说明 block 间同步和跨 GPU AllReduce 通常为什么需要多 kernel、cooperative groups 或 NCCL？

这题要先澄清 All-Reduce 在面试手写题里的边界：单 GPU 内通常先写归约 kernel，再解释 block 间同步为什么不能靠普通 __syncthreads 解决；真正跨 GPU AllReduce 属于通信 collective，通常交给 NCCL 或多阶段通信算法。

CUDA GPU 分布式系统大模型推理性能排查

为什么主流大语言模型多采用 Decoder-only 架构？相比 Encoder-only 和 Encoder-Decoder，它在训练目标、推理效率和产品能力上有哪些取舍？

这题考候选人是否能把 Decoder-only 的流行讲清楚：它不是单纯结构更先进，而是在自回归训练、生成式推理、规模化训练和产品通用能力之间形成了更顺手的工程取舍。

大语言模型 Transformer 大模型推理 AI 产品模型训练

如何让大语言模型处理更长文本？长上下文扩展、RAG、摘要压缩和分块处理分别适合什么场景？

这题考候选人能否把“更长文本”拆成不同产品问题：需要完整保留上下文、需要外部知识、需要压缩历史，还是需要对长文档做结构化处理。

大语言模型 RAG 大模型推理 AI 产品模型评估

LLaMA 这类大模型的输入长度为什么不能无限增长？位置编码、注意力/KV Cache 成本和训练长度分布分别带来哪些限制？

这题考候选人能否从 Transformer 机制解释输入长度边界：位置编码决定模型如何理解顺序，注意力和 KV Cache 决定计算与显存成本，训练长度分布决定长上下文泛化是否可靠。

大语言模型 Transformer 大模型推理注意力机制模型评估

大模型如何让生成文本更丰富而不单调？解码参数、训练数据、指令微调和重复惩罚分别起什么作用？

这题考候选人是否能把“回答更丰富”拆成推理时的采样控制、训练数据的表达覆盖、指令微调的任务风格、以及重复惩罚的局部去重，而不是只调高 temperature。

大语言模型大模型推理模型训练 AI 产品模型评估

音频模型从 QAT 量化感知训练到板端部署的完整流程是什么，遇到算子不支持、精度回退或性能不达标时如何排查？

这题考的是能否把 QAT 从训练技巧讲成完整工程闭环：先确定板端约束和浮点基线，再做 fake quant 训练、图转换、算子适配、板端对齐、精度回归和性能功耗压测。

性能测试性能排查可观测性模型训练模型评估大模型推理

音频端侧模型做训练后量化（PTQ）时如何实现，校准集的分布、数量和场景覆盖为什么会影响最终精度？

这题考的是 PTQ 的本质：用少量代表性样本估计激活动态范围并固化量化参数；校准集分布越偏、数量越少、场景覆盖越窄，越容易导致裁剪、分辨率浪费和真实场景精度下降。

模型评估模型训练大模型推理神经网络

音频端侧模型为什么常选 INT8 量化，如何在速度、内存、硬件算子支持和精度损失之间权衡？

这题的核心不是喊 INT8 更快，而是解释 INT8 为什么通常是端侧部署的平衡点：显著降内存和带宽、硬件支持成熟、速度收益可观，同时精度损失通常能用 PTQ/QAT 和混合精度控制。

模型评估模型训练大模型推理神经网络

音频模型板端推理选择 CPU 还是 NPU 时，延迟、吞吐、算子支持、内存搬运和功耗如何比较？

这题考的是端侧推理决策能力：CPU 胜在灵活、启动开销低、算子覆盖广；NPU 胜在大规模规则算子吞吐和能效，但真实选择要看计算图是否能连续下沉、内存搬运是否可控、流式延迟和功耗是否达标。

大模型推理模型评估算法神经网络产品指标

Agent 上下文压缩应该在什么时候触发，如何在 token 预算、信息损失和任务连续性之间取舍？

这题考上下文压缩的运行时策略：触发点不能只看 token 快满，而要结合任务阶段、信息密度、工具结果、记忆状态、失败风险和可恢复性来决定。

同题还出现在 1 个公司岗位

AI Agent 大语言模型 Prompt 工程内存管理大模型推理