知识点标签

性能分析面试题解析

性能分析相关面试题，覆盖瓶颈定位、指标拆解、Profile 工具和优化验证。

11 道题 2 个岗位 7 个公司

标签题目

性能分析相关面试题

阿里巴巴 / C/C++

LLM 推理算子变慢时，如何判断瓶颈是 Memory Bound 还是 Compute Bound？

这题考算子性能诊断方法。回答要从理论 roofline、算术强度、实际 profiler 指标、stall reason 和优化方向闭环判断，而不是只说“看 GPU 利用率”。

大语言模型大模型推理性能排查性能分析 CUDA

蚂蚁集团 / C/C++

AI Infra 中拿到一个慢算子时，如何判断是否值得优化，并选择 kernel 优化、算子融合、图优化或数据布局调整？

这题考慢算子优化的工程决策树，重点不是单独判断 Memory Bound 或 Compute Bound，而是先判断投入是否值得，再把 profile 证据映射到 kernel、融合、图优化和 layout 等不同路径。

大语言模型大模型推理性能排查性能分析 CUDA

使用 CUTLASS 优化 GEMM/LLM 推理算子时，通常从 tile 划分、memory hierarchy、epilogue 融合和 Tensor Core 利用率哪些方向入手？

这题考候选人是否能把 CUTLASS 当成可配置的 GEMM/kernel 生成框架来理解：从问题规模、tile 层级、访存搬运、Tensor Core 指令形状、epilogue 融合和 profiling 闭环解释优化，而不是只说“用库会更快”。

CUDA GPU 矩阵乘法大模型推理性能分析

针对特定 GPU 架构做算子优化是否值得，如何权衡性能收益、维护成本、可移植性和 fallback 方案？

这题考 GPU kernel 优化的工程取舍：不是问能不能榨干某一代硬件，而是问性能收益是否覆盖多架构维护、编译发布、回归矩阵和 fallback 成本。

CUDA GPU 性能分析大模型推理性能排查

字节跳动 / 算法

评估实时语音模型复杂度时，参数量、FLOPs/MACs、实时率 RTF、端到端延迟、内存和功耗分别怎么看？

这题考实时语音模型的工程评估口径：参数量看存储和权重内存，FLOPs/MACs 看理论计算，RTF 看吞吐，端到端延迟看交互体验，内存和功耗决定能否在目标设备稳定运行。

模型评估算法神经网络音视频性能排查性能分析

阿里巴巴 / 算法

大模型推理变慢时，如何从序列长度、batch、KV Cache、量化、FlashAttention 和 GPU 资源排查？

这题考 LLM 推理性能诊断闭环。高质量回答应先定义慢在哪里，再拆分队列、prefill、decode、KV Cache、batch 调度、attention kernel、量化、GPU 利用率和服务链路，用指标定位瓶颈，而不是一上来堆优化名词。

同题还出现在 1 个公司岗位

大语言模型大模型推理性能排查性能分析 KV Cache GPU

在 LLM 推理算子中，什么时候应使用 CUDA Core，什么时候应使用 Tensor Core？

这题考察 GPU 架构理解和算子选型能力，核心不是背概念，而是能按算子形态、数据类型、规模、访存和精度做工程判断。

CUDA GPU 大模型推理性能排查矩阵乘法性能分析

滴滴 / 算法

大模型训练中的 MFU 指标是什么，如何结合 Nsight/Profiler 定位吞吐瓶颈？

这题考训练性能分析能力：MFU 是把实际训练吞吐折算成模型有效 FLOPs 后，与 GPU 理论峰值比较的利用率指标；定位瓶颈要把 MFU、step time、kernel 时间线、通信、数据加载和显存行为一起看。

大语言模型模型训练性能分析 GPU CUDA 性能排查

字节跳动 / 算法

如何根据模型参数量、训练 token 数、FLOPs、GPU 数量和硬件利用率估算 LLM 训练时间？

这道题考察能否把 LLM 训练时间从经验判断转成可计算的工程估算。核心公式是总训练 FLOPs 除以集群有效算力：dense decoder-only 模型可用约 6 × 参数量 × token 数估算前向加反向训练 FLOPs，再除以 GPU 数、单卡峰值 FLOPs 和硬件利用率或 MFU。好的回答还要说明单位换算、序列长度和 attention 开销、MoE active 参数、数据并行扩展效率、checkpoint/eval/restart 等 wall-clock 修正因素。

大语言模型模型训练 GPU 性能排查性能分析

CUDA 算子优化后如何做公平 benchmark，排除硬件和精度差异，并证明性能提升真实有效？

这题考 CUDA 算子优化后的性能证明能力。好答案要建立公平 benchmark：固定硬件、驱动、CUDA/cuDNN/cuBLAS 版本、dtype、shape、batch、warmup、stream、同步点和统计方法；排除异步计时、首次编译、温度降频、不同 GPU 架构和精度算力差异；再用 Nsight/NCU 证明瓶颈从访存、计算、occupancy、launch 或同步角度确实改善，并用精度回归和端到端指标证明收益真实。

CUDA GPU 性能排查性能分析大模型推理

训练好的 AI 模型线上推理延迟高时，如何用量化、剪枝、TensorRT 和服务链路优化提速？

这道题考模型部署优化。高质量回答要先定位瓶颈，再分模型压缩、推理引擎、GPU 执行、批处理和服务链路逐层优化，并说明精度、吞吐、P99 延迟和稳定性的取舍。

大模型推理性能排查性能分析 GPU 可扩展性