知识点标签

矩阵乘法面试题解析

矩阵乘法相关面试题，覆盖 GEMM、Tensor Core、分布式切分和算子性能优化。

6 道题 1 个岗位 3 个公司

标签题目

矩阵乘法相关面试题

阿里巴巴 / C/C++

单机多卡 LLM 推理中的分布式 GEMM 如何切分矩阵，并完成跨 GPU 通信？

这题考 tensor parallel 下 GEMM 切分和 collective communication 的基本工程理解。回答要能把矩阵维度切分、局部计算、AllReduce/AllGather/ReduceScatter、通信计算重叠和推理场景约束讲清楚。

大语言模型大模型推理分布式系统 GPU 矩阵乘法

把 FP16 权重量化为 INT8 并保留 FP32 scale 时，scale factor 如何计算，为什么常用绝对值最大值定标？

这题考权重量化的基础闭环：从 FP16 到 signed INT8 的映射、scale 的计算、absmax 定标的原因、反量化误差，以及 per-tensor/per-channel 和 outlier 取舍。

大语言模型大模型推理 GPU 矩阵乘法性能排查

阿里巴巴 / C/C++

非对称量化相比对称量化，在计算和反量化时会带来哪些额外开销与精度影响？

这题考 zero point 带来的计算差异。好答案要从量化公式展开到矩阵乘额外修正项、预计算可能性、性能代价，以及非零中心分布下的精度收益。

大语言模型大模型推理 GPU 矩阵乘法性能排查

阿里巴巴 / C/C++

手写 CUDA Softmax2D 时，如何在 K 维做数值稳定的 softmax，避免指数溢出和精度爆炸？

这题考 row-wise softmax kernel 的正确性和性能：按 K 维减最大值、FP32 累加、block/warp reduction、不同 K 大小的线程映射，以及极端输入验证。

CUDA GPU 神经网络性能排查矩阵乘法

使用 CUTLASS 优化 GEMM/LLM 推理算子时，通常从 tile 划分、memory hierarchy、epilogue 融合和 Tensor Core 利用率哪些方向入手？

这题考候选人是否能把 CUTLASS 当成可配置的 GEMM/kernel 生成框架来理解：从问题规模、tile 层级、访存搬运、Tensor Core 指令形状、epilogue 融合和 profiling 闭环解释优化，而不是只说“用库会更快”。

CUDA GPU 矩阵乘法大模型推理性能分析

在 LLM 推理算子中，什么时候应使用 CUDA Core，什么时候应使用 Tensor Core？

这题考察 GPU 架构理解和算子选型能力，核心不是背概念，而是能按算子形态、数据类型、规模、访存和精度做工程判断。

CUDA GPU 大模型推理性能排查矩阵乘法性能分析