LLaMA 2 中的 GQA 是什么，它如何减少 KV heads、降低 KV Cache 和带宽开销，并影响训练与推理效率？｜摩尔线程算法面经解析

60 秒回答模板

GQA 是 Grouped-Query Attention，可以理解为介于 Multi-Head Attention 和 Multi-Query Attention 之间的注意力结构。标准 MHA 中，假设有 32 个 query heads，通常也有 32 个 key heads 和 32 个 value heads，每个 Q head 对应自己的 K/V 表示。MQA 是更激进的做法，所有 Q heads 共用一组 K/V heads。GQA 则把多个 Q heads 分成若干组，同一组里的 Q heads 共享一个 K head 和一个 V head，例如 32 个 Q heads 只配 8 组 K/V heads。它减少的是 K/V heads，而不是减少 Q heads。Q heads 仍然保留较多，以维持多头查询的表达能力；K/V heads 变少后，每个 token 需要生成和缓存的 key/value 向量数量下降。这样 K/V projection 的输出规模会降低，KV Cache 也按 K/V head 数近似同比下降。比如从 32 个 KV heads 降到 8 个 KV heads，KV Cache 中 K/V head 维度相关的存储和读取量约降到四分之一，具体还要看 head_dim、层数、batch 和 sequence length。 GQA 对推理尤其关键，因为自回归 decode 每生成一个新 token，都要读取历史所有 token 的 K/V cache 来做 attention。长上下文和大 batch 下，decode 往往不是纯算力瓶颈，而是显存容量和显存带宽瓶颈。KV Cache 变小意味着同一张卡能容纳更长上下文或更大 batch，也意味着每步 decode 读取历史 K/V 的带宽更低，tokens/s 和 serving 并发更容易提升。和 MQA 相比，GQA 是质量与效率的折中。MQA 的 KV cache 最小，但所有 Q heads 共享同一组 K/V，表达能力损失可能更明显。GQA 保留多个 K/V groups，让不同 query head 组有不同 K/V 子空间，通常比 MQA 更稳，同时比 MHA 节省大量 cache 和带宽。因此它常被用于大模型推理扩展性优化。对训练效率的影响要讲得更谨慎。GQA 会减少 K/V projection 输出和 attention 中 K/V 相关的内存读写，训练时也可能降低部分显存和通信压力；但训练阶段 attention 需要处理整段序列，计算瓶颈和并行实现更复杂，收益不一定像 decode 阶段那么直接。更准确的说法是：GQA 主要改善推理的 KV Cache 和带宽瓶颈，同时也可能改善训练中的内存与通信效率，但不能简单说它只是让训练速度变快。工程验证时，我会看 KV Cache 峰值、可支持的 batch/context、prefill 和 decode 延迟、decode tokens/s、显存带宽利用率、跨卡通信、困惑度和下游任务质量。失败模式包括 KV heads 过少导致质量下降、长上下文下 attention 退化、推理框架没有高效支持 GQA kernel，或者服务端 batch 调度没有把 cache 节省转化为吞吐。

考点 GQA 分组

难度 真实面经题

回答目标 让面试官看到你能从注意力 head 结构、KV Cache 公式、decode 带宽瓶颈和质量/效率取舍解释 GQA，而不是只记住 LLaMA 2 使用了某个 Attention 变体。

深入解析

概念定位

GQA 是 Grouped-Query Attention，位于 MHA 和 MQA 之间，通过多个 query heads 共享一组 K/V heads 来减少 K/V 数量。

结构差异

MHA 通常 Q/K/V heads 数相同；MQA 所有 Q heads 共用一组 K/V；GQA 将 Q heads 分组，每组共享一个 K/V head。

减少对象

GQA 减少的是 KV heads，不是 query heads。这样既保留较多 query 表达能力，又降低 K/V projection 输出和 cache 大小。

KV Cache 收益

KV Cache 大小与层数、batch、sequence length、head_dim 和 KV heads 数相关。KV heads 减少会直接降低长上下文推理的缓存占用。

带宽收益

自回归 decode 每步都要读取历史 K/V。GQA 降低每步读取的数据量，对内存带宽瓶颈下的 decode tokens/s 和并发有直接帮助。

训练影响

训练中 GQA 可减少 K/V 相关内存和部分通信，但整体速度还受全序列 attention、GEMM、并行策略和 kernel 实现影响，收益不应过度承诺。

质量取舍

KV heads 越少，cache 越省，但 K/V 表达容量越受限。GQA 比 MQA 更折中，目标是在质量损失较小的情况下获得明显推理效率收益。

验证指标

需要同时看 perplexity/任务质量、KV Cache 峰值、最大上下文、batch 并发、prefill/decode latency、tokens/s 和显存带宽利用率。

易错点

说 GQA 减少的是 Q heads，忽略它主要减少 KV heads。
把 GQA 等同于 MQA，没讲分组共享 K/V 的折中结构。
只说能加快训练，不说明推理 decode 的 KV Cache 和带宽瓶颈才是最直接收益。
认为 KV Cache 只影响显存容量，不影响每步 decode 的读取带宽和 tokens/s。
忽略 KV heads 减少可能带来的质量损失和长上下文退化。
把 GQA 和 KV Cache 量化、PagedAttention 混为一谈。
臆造题目来源公司的模型配置、head 数或训练实现。

面试官追问

GQA 和 MQA 的区别是什么？

MQA 通常让所有 query heads 共用同一组 K/V heads，KV Cache 最省但表达能力更受限。GQA 把 query heads 分组，每组共享一组 K/V，是效率和质量之间的折中。

为什么 KV Cache 会成为推理瓶颈？

自回归 decode 每生成一个 token，都要读取之前所有 token 的 K/V。上下文越长、batch 越大、层数越多，读取量越大，推理很容易从算力瓶颈变成显存容量和带宽瓶颈。

GQA 会减少 attention 的所有计算量吗？

不会。Q heads 仍然存在，注意力分数仍要按 query heads 计算。GQA 主要减少 K/V 生成、缓存存储和读取带宽，具体计算收益取决于 kernel 和实现。

GQA 为什么可能影响模型质量？

因为多个 query heads 共享 K/V，K/V 表示容量下降。如果 KV groups 太少，不同注意力头的差异表达会被压缩，可能影响困惑度、长上下文检索或复杂推理任务。

如何评估 GQA 是否带来收益？

离线看困惑度和任务质量，系统侧看 KV Cache 峰值、最大 batch/context、decode tokens/s、prefill/decode latency、显存带宽利用率和不同并发下的吞吐。