标签题目
大模型推理相关面试题
vLLM 有哪些技术优势,为什么推理性能高?
vLLM 推理性能高,核心来自围绕大模型解码瓶颈做系统优化:PagedAttention 降低 KV cache 内存碎片并提升复用,连续批处理提高 GPU 利用率,再结合高效调度、前缀缓存和并行能力提高吞吐。
什么是 TTFT,如何降低大模型首字延迟?
TTFT 是 Time To First Token,表示从请求发出或服务端接收请求到模型返回第一个 token 的时间。它直接影响用户对大模型应用是否“响应快”的感知,优化要覆盖排队、网络、鉴权、Prompt 构造、预填充计算、调度和流式返回。