月之暗面算法工程师面经题库

已解析题目

算法工程师相关题目

这题考给定输入 shape 为 (b, s, h) 时如何估算 MHA 计算量，回答重点是 QKV 投影、注意力矩阵、加权求和和输出投影，其中长序列瓶颈来自 O(b s^2 h)。

这题考 FlashAttention 的 IO-aware 原理，回答重点是它不改变标准 attention 数学结果，而是通过分块、在线 softmax 和重计算减少显存读写。

同题还出现在 1 个公司岗位

这题考 RMSNorm 为什么在大模型中常见，回答重点是它去掉均值中心化，只按均方根做尺度归一化，计算更简单且通常足够稳定。

这题考推理 OOM 的系统化排障能力：要能把显存占用拆成权重、KV Cache、prefill 临时峰值、decode 并发、算子 workspace 和碎片，并用可复现实验逐步定位，而不是一句降低 batch size。