AWQ 和 GPTQ 的量化原理有什么区别？在 LLM 推理部署中它们各自适合什么取舍？｜快手算法面经解析

60 秒回答模板

AWQ 和 GPTQ 都常用于 LLM 的 post-training weight quantization，但思路不同。GPTQ 从量化优化角度出发，把某一层的量化看成在校准输入 X 上最小化 ||XW-XQ|| 的问题，用 X^T X 近似 Hessian，按列或按块顺序量化权重，并把当前权重的量化误差补偿到后续未量化权重中，所以它通常能在低 bit 下取得较好的重构精度，但校准和量化过程更重，对实现细节和 group size 较敏感。AWQ 的出发点是并非所有权重同等重要，激活幅值大的通道对应的权重误差更影响输出；它通过 activation-aware 的通道缩放或保护显著权重，让重要通道在量化后保留更多有效精度，搜索成本相对可控，也更强调部署友好性。推理部署中，如果追求极低 bit 下的离线精度、能接受较慢量化流程，可以考虑 GPTQ；如果希望更快完成量化、保持通用吞吐和较好的 W4A16 部署兼容性，AWQ 往往更直接。最终选择要看模型结构、校准集、目标 bit、推理 kernel、显存预算和评测指标。

考点 GPTQ 重构补偿

难度 真实面经题

回答目标 帮助读者从优化目标、校准信息、误差补偿、部署成本和评估闭环五个角度区分 AWQ 与 GPTQ，并能给出面向 LLM 推理的选择建议。

深入解析

共同背景

两者都属于不重新训练或少量校准的后训练量化，常见目标是把 LLM 权重从 FP16/BF16 压到 INT4/INT3 或类似格式，降低显存占用和带宽压力。它们都需要校准数据，但校准数据主要用于估计误差敏感性，不是完整训练。

GPTQ 原理

GPTQ 将层输出重构误差作为优化目标，用校准激活 X 构造二阶信息近似，认为不同权重维度的误差对输出影响不同。量化时按块处理权重，量化一个子集后把误差通过 Hessian inverse 近似补偿到剩余权重，从而降低累积误差。

AWQ 原理

AWQ 的核心观察是少数权重通道对模型输出更重要，而这种重要性可以从 activation 分布看出来。它通常不对所有权重做复杂二阶补偿，而是搜索通道缩放，让重要 activation channel 对应的权重在低 bit 量化后损失更小，达到保护 salient weights 的效果。

误差视角

GPTQ 更偏重数学重构：在给定校准输入上最小化 XW 与 XQ 的差异。AWQ 更偏重重要性保护：先判断哪些通道的权重误差会被大激活放大，再通过缩放改变这些通道的量化相对精度。前者依赖二阶近似质量，后者依赖显著通道假设是否成立。

成本差异

GPTQ 通常离线量化时间更长，需要矩阵统计、分块求逆或近似求逆，以及顺序误差补偿。AWQ 的搜索和校准流程相对轻一些，更适合快速给多模型、多层配置生成权重量化版本。不过具体成本还取决于实现、模型尺寸、group size 和硬件。

部署取舍

如果目标是最大限度保住低 bit 精度，尤其在 3-bit 或更激进压缩下，GPTQ 可能更有优势；如果目标是通用 4-bit weight-only 推理、快速量化和稳定 kernel 适配，AWQ 常更容易落地。二者的真实性能都强依赖推理框架是否支持对应 packed format 和 fused kernel。

评估维度

不能只比较模型文件大小，应同时看 perplexity、领域评测、长上下文稳定性、首 token 延迟、decode tokens/s、显存峰值和 batch 扩展性。某些量化方法在小 batch 下延迟好，但大 batch 下受 dequant 或 kernel 带宽限制，部署选择必须和服务形态绑定。

组合策略

实际项目可以按层混合策略：对敏感层保留 FP16 或 8-bit，对大多数层用 AWQ/GPTQ 4-bit，对 embedding、lm head、attention output 等误差敏感模块单独处理。若校准集覆盖不足，保守 bit width 和分层回退比盲目全量低 bit 更可靠。

易错点

把 AWQ 和 GPTQ 都简单说成把 FP16 转 INT4，忽略优化目标差异。
认为 GPTQ 需要重新训练模型，混淆 PTQ 校准和训练。
只用权重绝对值判断 AWQ 重要性，忽略 activation 对输出误差的放大作用。
认为量化后模型大小变为四分之一，推理速度就一定提升四倍。
比较方法时不说明 bit width、group size、校准集和推理 kernel。
只看平均 benchmark，不看长上下文、领域数据和极端 prompt 的稳定性。
忽略 tokenizer、embedding、lm head 或特殊层的高精度保留策略。
把离线量化耗时、上线加载格式和运行时 dequant 开销混在一起讨论。

面试官追问

为什么 weight-only 量化能显著降低显存，但不一定等比例提升吞吐？

weight-only 主要减少权重存储和显存带宽，但推理还受激活读写、KV cache、dequant 开销、kernel 融合、batch size 和计算单元利用率影响。若运行时解包或反量化成本较高，速度提升会明显小于模型体积压缩比例。

GPTQ 中 Hessian 近似来自哪里，校准集分布不匹配会发生什么？

GPTQ 通常用校准输入激活的相关矩阵近似层输出误差的二阶信息，表示不同权重误差对输出的影响。如果校准集和真实请求分布差异很大，误差补偿会优化错方向，部署后可能在目标领域或长上下文场景退化。

AWQ 保护显著权重时为什么需要看 activation，而不是只看 weight magnitude？

输出误差取决于输入激活与权重误差的乘积，权重大不一定经常被高激活放大，权重小也可能连接关键高激活通道。看 activation 才能判断哪些通道的量化误差会真实影响层输出。

group size、zero point、symmetric quantization 会如何影响 AWQ/GPTQ？

group size 越小，scale 更贴近局部分布，精度通常更好但元数据和 kernel 复杂度增加；zero point 能处理非对称分布但也带来实现成本；对称量化更简单高效，却可能浪费偏移分布下的表示范围。

哪些层适合保留高精度，如何通过实验发现敏感层？

常见敏感层包括 embedding、lm head、部分 attention output、首尾层和误差集中的 MLP 层。可以逐层量化回放校准集，比较层输出误差、困惑度变化和任务指标，再对贡献最大的层提高精度或跳过量化。

同样是 4-bit，为什么不同推理框架的延迟和显存表现可能差很多？

4-bit 只是数值格式，真实性能取决于权重打包布局、group 元数据、反量化是否融合进 GEMM、batch 和序列形态、KV cache 管理以及硬件指令支持。框架 kernel 不同，瓶颈可能从带宽变成解包或调度。