音频端侧模型为什么常选 INT8 量化，如何在速度、内存、硬件算子支持和精度损失之间权衡？｜字节跳动算法面经解析

60 秒回答模板

音频端侧模型常选 INT8，是因为它在工程上经常处在速度、内存、功耗和精度之间的折中点。相比 FP32，INT8 权重和激活存储通常能降到四分之一，内存带宽压力和 cache miss 会减少，很多 CPU SIMD、DSP、NPU 对 INT8 卷积和矩阵乘都有成熟 kernel，所以端到端延迟和功耗有机会明显改善。相比 FP16，INT8 进一步省内存和带宽；相比 INT4 或更低 bit，INT8 的硬件支持、工具链、算子覆盖和精度可控性更成熟。权衡时不能只看理论算力，要看目标后端是否支持模型里的 Conv、MatMul、DepthwiseConv、激活、归一化、reshape 和流式状态操作；如果某些节点 fallback 到 CPU 或需要频繁 layout/type 转换，INT8 可能反而让端到端变慢。精度上要看任务是否对小幅数值扰动敏感，权重 per-channel、激活校准、QAT、蒸馏、敏感层混合精度都能降低损失。最终我会用同一套真实音频样本比较 FP32/FP16/INT8：任务指标、分场景指标、p50/p95 延迟、峰值内存、模型大小、功耗和温升。如果 INT8 在目标设备上算子覆盖完整、精度损失在阈值内，并且端到端延迟和功耗有收益，就选 INT8；如果精度敏感层或不支持算子导致收益被抵消，则用混合精度或调整结构。

考点 位宽对比

难度 真实面经题

回答目标 让候选人能用硬件支持、资源收益、精度风险和端到端指标解释为什么常选 INT8，以及什么时候应该改用 FP16、混合精度或更激进量化。

深入解析

INT8 的收益来自存储和计算两侧

INT8 把连续浮点值映射到 8 位整数，配合 scale 和 zero point 近似原始数值。存储上，权重和激活比 FP32 小很多，模型包、运行时内存、cache 占用和内存带宽都会下降。计算上，如果后端有 INT8 SIMD、DSP 或 NPU kernel，卷积和矩阵乘可以用更高吞吐、更低功耗的数据路径执行。

它通常是成熟度和压缩率的平衡点

FP32 精度稳但资源开销大，FP16 对精度友好且支持也较多，但内存和带宽收益不如 INT8。INT4、二值化或更激进量化压缩更强，但精度恢复、算子覆盖、工具链和调试复杂度明显上升。INT8 的优势在于硬件、转换器、校准和 QAT 经验更成熟，通常能在端侧实时音频场景中先成为默认候选。

硬件算子支持决定理论收益能否落地

INT8 快不快取决于目标设备是否原生支持模型中的关键算子和参数组合。常见风险包括 depthwise/group convolution 参数不支持、归一化或激活无法量化、动态 shape 不友好、某些 reshape/slice 在 CPU 执行、量化粒度不匹配、前后段频繁 requantize。只要图被切碎或 fallback 过多，内存搬运和调度开销就可能吞掉 INT8 kernel 的收益。

精度损失来自舍入、裁剪和动态范围错配

INT8 只有有限离散值，误差主要来自舍入、饱和裁剪和 scale 选择。音频模型里，小幅特征、静音边界、低信噪比、归一化后长尾激活、残差相加和最后分类或回归头都可能对量化敏感。权重 per-channel、激活校准、QAT、蒸馏、bias correction、保留第一层或最后一层高精度，都是降低损失的常用手段。

评估必须看端到端指标

选择 INT8 时要比较任务指标和系统指标。任务指标包括整体准确率、召回、错误率或增强质量，以及按噪声、设备、音量、静音、远近场分桶的退化。系统指标包括模型大小、峰值内存、p50/p95 延迟、实时率、CPU 占用、NPU 利用率、功耗、温升和首帧启动。只有端到端指标变好，INT8 才是有效优化。

最终取舍可以是混合精度和结构调整

如果全 INT8 精度掉得多或部分算子不支持，合理选择不是硬上全量化，而是保留少数敏感层 FP16/FP32、改写部署不友好的算子、调整模型结构、重做校准或 QAT。决策标准是整体收益：少量高精度层如果只增加很小内存和延迟，却显著恢复精度，通常比复杂低 bit 方案更工程化。

易错点

只说 INT8 模型更小，没有说明带宽、cache、硬件 kernel 和功耗路径。
默认 INT8 一定更快，忽略算子不支持、fallback、layout 转换和小 batch 调度开销。
把精度损失归因于抽象的压缩，没有讲舍入、裁剪、scale 选择和 outlier。
不比较 FP16、INT4 和混合精度，无法体现为什么 INT8 是折中点。
只看整体准确率，不看噪声、设备、静音、音量和远近场分桶退化。
忽略目标 runtime 的量化粒度要求，例如 per-channel 是否支持、激活是否只能 per-tensor。
把全 INT8 当成目标本身，而不是把端到端精度、延迟、内存和功耗作为目标。

面试官追问

INT8 一定比 FP16 快吗？

不一定。如果目标硬件对 FP16 支持更好，或者 INT8 图存在大量 fallback、requantize 和 layout 转换，FP16 可能端到端更快。必须用真实设备 profile 判断。

为什么权重量化常用 per-channel？

不同输出通道的权重动态范围可能差异很大，per-tensor 会被最大范围通道支配，导致其他通道分辨率不足。per-channel 能给每个通道单独 scale，通常能明显降低卷积权重量化误差。

为什么不直接用 INT4？

INT4 压缩更强，但精度恢复更难，工具链和硬件算子支持更不稳定，调试成本更高。除非目标硬件和模型结构明确支持，并且收益足以覆盖精度和维护风险，否则 INT8 更稳。

哪些层适合保留高精度？

可以重点检查第一层、最后任务头、归一化附近、残差合并处、动态范围长尾层和逐层 diff 最大的层。是否保留要用 ablation 验证，而不是固定规则。

选择量化精度时最小验证集应该包含什么？

至少包含代表性正常样本、噪声、静音、远场、不同设备、不同音量和长尾场景，并在真实设备上采集延迟、内存、功耗和输出一致性。只跑离线精度不够。