公司岗位题库

摩尔线程 算法面经

2 道题 9 个标签 2 条出现记录

算法工程师相关题目

DeepSpeed ZeRO 中哪些训练状态会占用 GPU 显存,为什么 activation 通常用 checkpoint/recompute 而不是像参数或优化器状态一样分页?

这道题考察大模型训练显存构成和 ZeRO 的边界。回答要先把 GPU 显存里的主要训练状态拆清楚:参数、梯度、优化器状态、激活、通信/临时 buffer 和碎片;再说明 ZeRO 主要分片的是模型状态,Stage 1/2/3 分别处理优化器状态、梯度和参数;最后解释 activation 为什么通常用 checkpoint/recompute:它是 batch/sequence 相关的短生命周期中间结果,反向依赖层级顺序,分页到 CPU/NVMe 会引入高带宽低延迟瓶颈,而重计算能用额外 FLOPs 换显存,通常更可控。

LLaMA 2 中的 GQA 是什么,它如何减少 KV heads、降低 KV Cache 和带宽开销,并影响训练与推理效率?

这道题考察 GQA 的注意力结构和 KV Cache 推理瓶颈。回答要先把 MHA、MQA、GQA 放在一条线上:MHA 每个 query head 有自己的 K/V head,MQA 所有 query head 共用一组 K/V,GQA 则让一组 query heads 共用一个 K/V head。它减少的是 KV heads 数量,从而降低 K/V projection 输出、KV Cache 存储、decode 阶段缓存读取带宽和跨卡通信压力。关键是不要把 GQA 只说成训练加速;它对长上下文自回归推理的内存带宽收益更直接,同时在质量和效率之间比 MQA 更折中。