已解析题目
算法工程师相关题目
给定输入 shape 为 (b, s, h),如何估算 Multi-Head Attention 的计算量?
这题考给定输入 shape 为 (b, s, h) 时如何估算 MHA 计算量,回答重点是 QKV 投影、注意力矩阵、加权求和和输出投影,其中长序列瓶颈来自 O(b s^2 h)。
FlashAttention 的核心原理是什么,为什么能降低长序列 attention 的显存和 IO 开销?
这题考 FlashAttention 的 IO-aware 原理,回答重点是它不改变标准 attention 数学结果,而是通过分块、在线 softmax 和重计算减少显存读写。
同题还出现在 1 个公司岗位
为什么 RMSNorm 在大模型中比 LayerNorm 更常见?
这题考 RMSNorm 为什么在大模型中常见,回答重点是它去掉均值中心化,只按均方根做尺度归一化,计算更简单且通常足够稳定。
大模型推理时出现 OOM,如何从 batch、输入长度、KV Cache、临时张量峰值和算子实现排查?
这题考推理 OOM 的系统化排障能力:要能把显存占用拆成权重、KV Cache、prefill 临时峰值、decode 并发、算子 workspace 和碎片,并用可复现实验逐步定位,而不是一句降低 batch size。