摩尔线程算法工程师面经题库

已解析题目

算法工程师相关题目

DeepSpeed ZeRO 中哪些训练状态会占用 GPU 显存，为什么 activation 通常用 checkpoint/recompute 而不是像参数或优化器状态一样分页？

这道题考察大模型训练显存构成和 ZeRO 的边界。回答要先把 GPU 显存里的主要训练状态拆清楚：参数、梯度、优化器状态、激活、通信/临时 buffer 和碎片；再说明 ZeRO 主要分片的是模型状态，Stage 1/2/3 分别处理优化器状态、梯度和参数；最后解释 activation 为什么通常用 checkpoint/recompute：它是 batch/sequence 相关的短生命周期中间结果，反向依赖层级顺序，分页到 CPU/NVMe 会引入高带宽低延迟瓶颈，而重计算能用额外 FLOPs 换显存，通常更可控。

大语言模型模型训练分布式系统 GPU 内存管理

摩尔线程 / 算法

LLaMA 2 中的 GQA 是什么，它如何减少 KV heads、降低 KV Cache 和带宽开销，并影响训练与推理效率？

这道题考察 GQA 的注意力结构和 KV Cache 推理瓶颈。回答要先把 MHA、MQA、GQA 放在一条线上：MHA 每个 query head 有自己的 K/V head，MQA 所有 query head 共用一组 K/V，GQA 则让一组 query heads 共用一个 K/V head。它减少的是 KV heads 数量，从而降低 K/V projection 输出、KV Cache 存储、decode 阶段缓存读取带宽和跨卡通信压力。关键是不要把 GQA 只说成训练加速；它对长上下文自回归推理的内存带宽收益更直接，同时在质量和效率之间比 MQA 更折中。

大语言模型 Transformer 注意力机制 KV Cache 大模型推理

摩尔线程 算法面经

算法工程师相关题目

DeepSpeed ZeRO 中哪些训练状态会占用 GPU 显存，为什么 activation 通常用 checkpoint/recompute 而不是像参数或优化器状态一样分页？

LLaMA 2 中的 GQA 是什么，它如何减少 KV heads、降低 KV Cache 和带宽开销，并影响训练与推理效率？

摩尔线程算法面经