标签题目
TTFT相关面试题
什么是 TTFT,如何降低大模型首字延迟?
TTFT 是 Time To First Token,表示从请求发出或服务端接收请求到模型返回第一个 token 的时间。它直接影响用户对大模型应用是否“响应快”的感知,优化要覆盖排队、网络、鉴权、Prompt 构造、预填充计算、调度和流式返回。
知识点标签
TTFT相关面试题解析,按真实面经题目沉淀核心机制、易错点和面试官追问。
标签题目
TTFT 是 Time To First Token,表示从请求发出或服务端接收请求到模型返回第一个 token 的时间。它直接影响用户对大模型应用是否“响应快”的感知,优化要覆盖排队、网络、鉴权、Prompt 构造、预填充计算、调度和流式返回。