大模型推理中 Prefill/Decode（PD）分离部署为什么能提升处理速度？｜腾讯后端开发面经解析

60 秒回答模板

LLM 推理可以拆成 prefill 和 decode 两个阶段。Prefill 是把用户 prompt 一次性跑过模型，计算所有输入 token 的 hidden state 并生成 KV cache，它更偏大矩阵计算、并行度高，影响首 token 延迟。Decode 是后续一个 token 一个 token 自回归生成，每步都要读历史 KV cache，计算粒度小、迭代多，更容易受内存带宽、调度和 batch 影响。PD 分离部署就是把 prefill 和 decode 放到不同实例、队列或 GPU 资源池上，让 prefill 侧优化大 prompt 的吞吐和 TTFT，decode 侧优化持续生成的 TPOT 和并发吞吐，避免两类任务在同一批处理里互相干扰。代价是 KV cache 要从 prefill 侧交给 decode 侧，会产生网络传输、缓存管理、调度复杂度和故障恢复问题。它适合长 prompt、高并发、prefill/decode 资源特征差异明显的场景；短 prompt、小模型或低并发时不一定划算。

考点 两阶段推理

难度 真实面经题

回答目标 讲清 PD 分离的收益和成本

深入解析

Prefill 处理完整输入

Prefill 阶段读取用户 prompt 的所有输入 token，一次性完成前向计算，并为后续生成准备 KV cache。它的特点是序列长度可能很长，矩阵计算并行度高，对首 token 延迟影响大。长上下文、RAG 拼接和多轮历史都会让 prefill 成本变高。

Decode 逐 token 生成

Decode 阶段每次生成一个新 token，再把这个 token 的 K/V 追加到 cache 中。它的每步计算规模比 prefill 小，但步骤很多，而且每步都要读取历史 KV cache。Decode 更容易受内存带宽、cache 管理、调度粒度和 batch 形态影响，决定每 token 延迟和持续吞吐。

混部会互相干扰

如果 prefill 和 decode 放在同一批请求和同一资源池里，长 prompt 的 prefill 可能阻塞正在 decode 的请求，导致流式输出卡顿；大量 decode 请求也可能让新的 prefill 排队，拉高 TTFT。两类工作负载的计算形态不同，统一调度很难同时优化首 token 和后续 token。

PD 分离的核心收益

PD 分离把 prefill 和 decode 拆成不同队列、实例或 GPU 池，分别做 batch、并发和资源配置。Prefill 节点可以偏向高吞吐地处理 prompt，decode 节点可以维持稳定小步生成和流式返回。这样有机会同时改善 TTFT、TPOT、吞吐和资源利用率。

KV cache 交接是关键成本

Prefill 结束后 decode 需要继续使用同一请求的 KV cache，所以分离部署必须解决 KV cache 传输、地址管理、压缩、生命周期、失败重试和一致性。cache 交接如果太慢，会抵消分离收益；如果网络或存储不可靠，还会影响请求恢复和尾延迟。

适用性要靠指标判断

PD 分离不是所有场景都更快。长 prompt、高并发、生成较长、prefill/decode 比例差异大时更容易收益；短问短答、低并发、小模型或网络传输昂贵时可能不划算。评估要看 TTFT、TPOT、P95/P99、goodput、GPU 利用率、KV 传输耗时和失败率。

易错点

只把 PD 分离解释成把两个接口拆开，没有说明 prefill/decode 的 workload 差异。
认为 PD 分离一定降低总延迟，忽略 KV cache 传输和调度开销。
只关注 TTFT，不看 TPOT、P99、吞吐和流式稳定性。
把 prefill 说成只做 tokenization，漏掉完整 prompt 前向计算和 KV cache 生成。
忽略失败恢复、缓存生命周期和跨节点一致性。
没有讨论适用场景，导致方案像万能优化。

面试官追问

Prefill 和 decode 分别影响哪些用户体验指标？

Prefill 主要影响 TTFT，也就是首 token 多久出现；decode 主要影响 TPOT、流式输出速度、总生成时间和持续吞吐。

PD 分离为什么需要传 KV cache？

Prefill 已经为 prompt 计算了历史 K/V，decode 继续生成必须复用这些缓存。如果换到 decode 节点，就要把缓存状态交过去，否则会重复计算或无法接续。

什么时候 PD 分离可能不划算？

短 prompt、低并发、生成很短、模型较小或网络传输成本高时，KV cache 交接和系统复杂度可能超过收益。

PD 分离和 continuous batching 是什么关系？

continuous batching 是调度方法，PD 分离是资源拆分架构。二者可以结合：prefill 和 decode 各自使用适合自己的 batch 策略。

如果 decode 节点失败怎么办？

需要保留请求状态和 KV cache 生命周期策略。可以重试到其他 decode 节点、重新 prefill、或返回可恢复错误，具体取决于缓存是否可复制和服务 SLA。

如何证明 PD 分离提升了速度？

要做同流量对比，观察 TTFT、TPOT、端到端延迟、P99、goodput、GPU 利用率和单位成本，并按 prompt 长度和输出长度分桶。