调用大模型服务时需要关注哪些核心指标？｜字节跳动技术客户成功面经解析

60 秒回答模板

可以按五类指标回答。第一是可用性，关注成功率、错误率、超时率、限流率、重试率和服务降级次数；第二是性能，关注首 token 延迟、总响应耗时、流式输出间隔、并发量和吞吐；第三是成本，关注输入输出 token、缓存命中、模型单价、单请求成本和每个业务结果的成本；第四是效果，关注任务完成率、答案采纳率、人工改写率、幻觉率、格式合规率和用户满意度；第五是安全合规，关注敏感内容拦截、越权访问、提示注入命中、数据泄露风险和审计覆盖。面试中最好说明这些指标要按模型、场景、版本、用户层级和请求类型分维度观察。

考点 可用性指标

主线 性能指标

易错点 只看接口成功率，不看重试、降级、限流和业务任务是否真正…

深入解析

可用性指标

大模型服务通常依赖外部供应商、网关、检索系统和业务后端，因此可用性要拆开看。请求成功率、HTTP 错误率、模型错误码、超时率、限流率、重试率、熔断次数和降级次数能帮助定位是模型不可用、网络波动、上游限额、还是业务编排失败。只看最终成功率会掩盖重试和降级成本。

性能指标

大模型响应慢会直接影响产品体验。非流式场景关注总延迟，流式场景还要关注首 token 延迟、token 间隔、输出速度和用户可感知等待。对于批处理和后台任务，还要看吞吐、队列积压、并发利用率和超时分布。性能指标最好看 p50、p95、p99，而不是只看平均值。

成本指标

模型调用成本通常与输入 token、输出 token、模型档位、缓存命中、重试次数和工具调用次数有关。单请求成本只是起点，更重要的是每次有效完成任务的成本，例如每个成功客服解决、每份可用报告、每次被采纳代码建议的成本。这样才能判断模型选择和提示词长度是否具有商业可持续性。

质量指标

质量不能只依赖人工主观印象。不同场景可以定义任务完成率、答案采纳率、用户追问率、人工改写率、格式合规率、事实一致性、幻觉率、拒答率、代码通过率或检索引用命中率。质量指标必须和业务目标绑定，例如客服看解决率，代码助手看通过测试和采纳，内容生成看审核通过和编辑成本。

安全合规指标

大模型调用还要关注安全边界。提示注入命中、越权工具调用、敏感信息输出、违规内容拦截、用户数据脱敏覆盖、审计日志完整性和人工升级率，都是生产系统的重要指标。高风险业务中，安全指标应和质量指标同等重要，因为一次泄露或越权可能比多次回答不佳更严重。

易错点

只看接口成功率，不看重试、降级、限流和业务任务是否真正完成。
只看平均延迟，忽略首 token 延迟、p95、p99 和流式输出体验。
只统计 token 总量，不按模型、场景、提示词版本和有效结果拆成本。
把用户点赞当作唯一质量指标，缺少事实准确性、格式合规和人工改写等客观信号。

面试官追问

首 token 延迟和总延迟哪个更重要？

取决于场景。聊天和写作助手中首 token 延迟决定用户是否觉得有响应，总延迟决定完整任务完成速度。后台批处理更关注总耗时、吞吐和队列积压。

如何衡量大模型调用质量？

要按任务定义。客服看解决率和转人工率，代码看测试通过和采纳率，问答看事实一致性和引用支持，结构化抽取看字段准确率和格式合规率。

重试率高说明什么？

可能说明供应商稳定性差、超时设置不合理、限流频繁、提示词导致输出格式不稳定，或业务编排失败。重试会放大延迟和成本，不能只看最终成功。

为什么要看每个业务结果的成本？

因为单次调用便宜不代表业务划算。如果大量调用没有产生有效结果，真实成本会很高。按成功解决、采纳、审核通过等结果归因，更能指导模型和策略选择。