大模型训练显存如何估算，参数、梯度、优化器状态、激活和临时缓存各占哪些部分？｜高频面试题解析

60 秒回答模板

回答可以按公式化流程展开：设参数量为 P，训练精度为 bf16/fp16。第一步估 model states：参数约 2P bytes，梯度约 2P，Adam m/v 约 8P，如果有 fp32 master weights 再加 4P，所以未分片时约 12P 到 16P bytes。第二步估 activation：与 micro-batch、sequence length、hidden size、层数相关，attention 若保存完整矩阵还会有 O(B * heads * S^2) 项，FlashAttention 和 checkpointing 可降低峰值。第三步加临时和系统开销：通信 bucket、算子 workspace、logits、缓存分配器碎片、CUDA context 等。第四步根据 ZeRO、tensor parallel、pipeline parallel、sequence parallel 判断这些项在单卡上的分摊方式，最后留出安全余量并用 profiler 校准。

考点 model states 至少三大件

难度 真实面经题

回答目标 让候选人能用可计算的方式拆解大模型训练显存，说明参数、梯度、优化器状态、activation 和临时缓存的来源，并能根据并行和精度配置推导单卡压力。

深入解析

先区分训练和推理显存

训练显存远大于推理显存，因为训练不仅要放模型参数，还要保存梯度、优化器状态和反向传播需要的激活。推理主要关注参数和 KV cache；训练则通常由 model states 加 activations 共同决定。面试中如果只用参数量乘精度来估算训练显存，会严重低估需求。

参数显存

参数显存是 P 乘以每个参数的字节数。bf16 或 fp16 权重通常按 2 bytes 估算，fp32 权重按 4 bytes。混合精度训练中，前向和反向可能使用低精度权重，但优化器可能维护 fp32 master weights 来提升数值稳定性，所以参数相关显存不一定只有一份低精度权重。

梯度显存

反向传播会为可训练参数生成梯度，通常按训练精度或优化器要求存储。若梯度是 bf16/fp16，可粗估 2P bytes；若使用 fp32 梯度或梯度累积策略，显存和生命周期会不同。梯度累积不会让每一步梯度消失，它只是用多个 micro-batch 累积后再更新，因此梯度缓冲仍然需要常驻。

优化器状态

Adam/AdamW 通常为每个参数保存一阶矩和二阶矩，常用 fp32 存储，因此约 8P bytes。加上可能存在的 fp32 master weights，总 model states 可能达到 16P bytes。以 7B 参数为例，16P bytes 大约是 112GB，这还没有算 activations 和临时缓存。使用 SGD、Adafactor、8-bit optimizer 或 ZeRO 分片会改变这个估算。

激活显存

activation 是训练中最容易被低估的部分。每层前向需要保存输入、归一化、中间 MLP、attention 相关张量等，以便反向计算。它随 micro-batch size、sequence length、hidden size 和层数增长；如果 attention 显式保存 score 或 probability，还会出现与 S^2 相关的显存。activation checkpointing 可以不保存部分激活，反向时重算，用计算换显存。

临时缓存和通信开销

除了参数、梯度、优化器和激活，还有很多短生命周期但会影响峰值的内存：GEMM workspace、attention workspace、dropout mask、loss logits、梯度裁剪临时张量、通信 bucket、all-reduce 或 all-gather buffer、CUDA context、内存分配器碎片等。大词表模型的 logits 在长序列和大 batch 下也可能很大，不能完全忽略。

分布式训练的分摊方式

Data parallel 会复制参数和优化器状态，只在 batch 维度扩展；ZeRO-1 分片优化器状态，ZeRO-2 进一步分片梯度，ZeRO-3 连参数也分片；tensor parallel 把矩阵乘切到多卡；pipeline parallel 按层切分；sequence/context parallel 则处理长序列维度。估算单卡显存时，必须明确采用哪种并行策略，否则总量除以卡数会得到错误结论。

实战估算流程

实战中可以先用 P 和优化器类型估 model states 下界，再根据 batch、sequence、层数估 activation，再加 10% 到 30% 的临时和碎片余量，最后用一次小规模 profiler 或 memory summary 校准。若爆显存，优先检查 sequence length、micro-batch、activation checkpointing、optimizer state sharding、FlashAttention 和 logits 计算方式，而不是盲目减少模型参数。

易错点

只用参数量乘 2 bytes 估训练显存，漏掉梯度、优化器和激活。
把推理 KV cache 和训练 activation 混为一谈。
认为梯度累积能减少梯度缓冲本身的显存，忽略它主要是在不增加单步 micro-batch 的情况下扩大有效 batch。
不说明优化器类型、状态精度和 master weights 是否存在，却给出固定显存结论。
忽略 fp32 master weights 是否存在对估算的影响。
把总显存简单除以 GPU 数量，不考虑并行策略具体分片哪些状态。
忘记 communication bucket、workspace、logits 和内存碎片等峰值开销。
只讨论 model states，不讨论 sequence length 和 micro-batch 对 activation 的影响。

面试官追问

为什么 7B 模型训练不是 14GB 显存就够？

14GB 只是 7B 参数用 fp16/bf16 存一份权重的大致大小。训练还要有梯度、Adam 一阶二阶矩、可能的 fp32 master weights、activations、临时缓存和通信 buffer，因此实际需求会高很多。

activation checkpointing 会影响哪些东西？

它减少前向时保存的中间激活，反向时重新计算这些激活来得到梯度。好处是显存下降，代价是训练时间增加；它主要解决 activation，不直接减少优化器状态。

ZeRO-3 为什么省显存？

ZeRO-3 会把参数、梯度和优化器状态都按 data parallel rank 分片，单卡不再常驻完整 model states。代价是前向和反向时需要按需 all-gather 参数，通信和调度复杂度增加。

训练时需要 KV cache 吗？

常规 teacher-forcing 训练不像自回归推理那样为每个请求维护持久 KV cache，但 attention 计算仍会产生 key、value 和相关激活供反向使用。推理的 KV cache 和训练的 activation 不能混为一谈。

显存估算为什么要看 sequence length？

sequence length 会线性增加很多 activation，也会让完整 attention 的中间项接近平方增长。长上下文训练时，即使参数量不变，显存峰值也可能因为序列长度大幅上升。