LLM 训练或推理中 FP8 和 BF16 如何按吞吐、显存和稳定性取舍？｜阿里巴巴 C/C++面经解析

60 秒回答模板

我会先说明 FP8 和 BF16 都是低精度格式，但取舍目标不同。BF16 有 8 位指数和 7 位尾数，动态范围接近 FP32，训练稳定性好，常用于大模型训练和推理中的权重、激活或部分计算，工程风险相对低。FP8 位宽更小，显存占用和带宽压力更低，理论吞吐更高，适合在硬件支持、缩放策略和校准充分的场景中降低推理或训练成本，但数值精度更敏感，通常需要 scaling、混合精度、异常值处理和精度回归验证。面试中用 DeepSeek 和 Qwen 做对比例子时，我不会武断说某个系列所有版本一定使用某格式，而是说不同模型或版本可能根据硬件、训练稳定性、推理成本和工程成熟度选择 FP8 或 BF16。核心回答是：BF16 更稳、更通用，FP8 更省、更快但更依赖系统级优化和验证。

考点 BF16 稳定

难度 真实面经题

回答目标 讲清精度格式、硬件和稳定性取舍

深入解析

先定义两种格式的工程目标

BF16 的优势是动态范围大，接近 FP32，减少溢出和梯度不稳定问题；FP8 的优势是位宽更小，显存、带宽和计算吞吐更有潜力。它们不是简单谁更先进，而是面向稳定性和效率的不同选择。

BF16 更偏稳定和通用

大模型训练和推理中，数值范围很重要。BF16 保留较大的指数位，能承受较大激活值和梯度尺度，很多场景不需要复杂量化校准就能工作。因此它常被视为比 FP16 更稳、比 FP32 更省的折中。

FP8 更偏成本和吞吐优化

FP8 把权重、激活或部分矩阵乘法压到更低位宽，可以降低显存占用和内存带宽，硬件支持好时也能提升吞吐。但 FP8 表示精度更低，需要选择 E4M3、E5M2 等格式、设置 scale，并处理 outlier 和误差累积。

训练和推理的风险不同

推理侧更关注输出质量回归、延迟和成本，通常可以通过校准、混合精度和关键层保留高精度来控制风险。训练侧还要关注梯度、优化器状态和长时间稳定性，对 FP8 的系统设计要求更高。

模型名只能作为面试例子

如果面试官提到 DeepSeek 和 Qwen，稳妥答法是把它们当成不同精度路线的讨论入口，而不是断言所有版本的内部实现。不同版本、不同阶段、不同硬件和不同推理引擎都可能采用不同混合精度策略。

最终取舍看硬件和验证闭环

选择 FP8 还是 BF16，要看 GPU 是否高效支持、模型对量化误差是否敏感、目标是训练还是推理、延迟和成本要求、校准数据质量、回归评测是否充分。没有评测闭环的 FP8 优化，很容易用质量损失换表面吞吐。

易错点

武断说某个模型家族所有版本都固定使用 FP8 或 BF16。
只比较位宽大小，忽略指数范围、尾数精度、scale 和 outlier。
认为 FP8 只要省显存就一定提升端到端性能，忽略硬件支持和内存访问瓶颈。
把训练和推理混为一谈，没有说明稳定性风险不同。
不提混合精度和关键层保留高精度，回答过于绝对。
没有用质量回归评测约束量化收益，只讲吞吐和成本。

面试官追问

FP8 一定比 BF16 更好吗？

不一定。FP8 更省资源，但对硬件、scale、校准和误差控制要求更高；BF16 更稳，很多训练和推理场景工程成本更低。

为什么 BF16 比 FP16 更稳定？

BF16 保留了和 FP32 类似的指数范围，更不容易溢出或下溢；代价是尾数精度较少，但大模型训练通常更看重动态范围。

FP8 推理要做哪些验证？

要做困惑度或任务指标回归、长文本稳定性、关键场景人工评测、延迟吞吐测试、显存峰值测试和 outlier 层分析。

哪些张量更适合保留高精度？

对误差敏感的层、归一化、输出头、部分激活或累加结果常会保留 BF16/FP16/FP32，具体要看模型和评测。