vLLM 有哪些技术优势，为什么推理性能高？｜字节跳动算法面经解析

60 秒回答模板

大语言模型推理的主要瓶颈之一是自回归解码阶段的 KV cache 管理和 GPU 利用率。vLLM 的代表性优势是 PagedAttention，它把 KV cache 切成固定大小的块，像虚拟内存分页一样管理，不要求每个请求预留连续大块显存，从而减少内存碎片和过度预留，也便于多序列共享前缀。其次，vLLM 支持连续批处理，服务端不必等一个 batch 全部结束再接新请求，而是在每个解码步动态加入新请求、移除完成请求，让 GPU 更持续地满载。再加上调度器、prefix caching、张量并行、量化支持、流式输出和兼容常见接口，vLLM 在高并发、多长度请求场景下通常能获得更高吞吐和更低单位成本。

考点 推理瓶颈在 KV cache

主线 PagedAttention 的价值

易错点 只说 vLLM 快，因为用了 GPU，没有解释 KV …

深入解析

推理瓶颈在 KV cache

Transformer 解码时，每生成一个 token 都要复用前面 token 的 key 和 value。上下文越长、并发越高，KV cache 占用越大。传统做法如果为每个请求分配连续显存，容易因为不同请求长度差异造成碎片和浪费。显存浪费会直接限制 batch 大小，进而降低吞吐。

PagedAttention 的价值

PagedAttention 把 KV cache 拆成块进行管理，逻辑上连续的上下文可以映射到物理上不连续的显存块。这样请求增长时按需分配，不必提前预留最大长度；请求结束后块可以回收复用。它解决的不是模型数学本身，而是服务系统里显存分配和访问效率的问题，是 vLLM 性能优势的核心。

连续批处理提升利用率

在线服务的请求长度和到达时间都不均匀。静态 batch 会被最长请求拖住，短请求完成后 GPU 位置空闲。连续批处理允许调度器在每个解码步重新组织 batch，完成的请求退出，新请求加入，使 GPU 计算资源保持更高占用。对多用户并发推理，这比离线固定批更符合真实负载。

前缀复用和调度

很多业务请求共享系统提示词、角色设定、工具说明或检索模板。prefix caching 可以复用相同前缀的 KV cache，减少重复预填充成本。调度器还要在吞吐、延迟、公平性和显存之间做权衡，例如控制最大并发 token 数、处理长上下文请求、保证流式输出及时返回。

工程生态优势

vLLM 不只是一个内核优化点，还提供推理服务框架能力，例如常见 API 兼容、张量并行、量化集成、流式响应、批处理调度和多模型部署相关能力。高性能来自模型执行、显存管理和服务调度的组合，不能只把原因归结为使用了某个单独算子。

易错点

只说 vLLM 快，因为用了 GPU，没有解释 KV cache 和调度瓶颈。
把 PagedAttention 理解成改变模型注意力结果，忽略它主要是缓存管理优化。
只关注吞吐，不讨论首 token 延迟、排队和调度取舍。
认为 vLLM 在任何场景都线性加速，忽略低并发和极长上下文的边界。

面试官追问

PagedAttention 和普通 attention 有什么区别？

普通 attention 描述模型计算方式，PagedAttention 主要优化推理服务中的 KV cache 存储和访问。它把缓存分页管理，减少显存碎片和浪费，不是改变 Transformer 的语义。

为什么连续批处理能提高吞吐？

在线请求长度不同，静态 batch 会被最长序列拖慢。连续批处理在每个生成步更新 batch，让完成的请求释放位置，新请求立即补上，从而减少 GPU 空转。

vLLM 对首 token 延迟和总吞吐的影响一样吗？

不一样。吞吐提升主要来自批处理和缓存管理；首 token 延迟还受排队、prefill 长度、调度策略和模型大小影响。提高吞吐有时会牺牲单请求延迟，需要按业务目标调参。

什么场景下 vLLM 收益最明显？

高并发、请求长度差异大、共享前缀多、显存压力明显的 LLM 服务收益更明显。如果只是单请求低并发测试，系统调度优势可能不充分体现。