真实面经题目 · 原创解析
调用大模型服务时需要关注哪些核心指标?
调用大模型服务时,核心指标不能只看接口是否成功,还要同时关注效果、成本、性能、稳定性和安全。典型指标包括请求成功率、错误率、首 token 延迟、总延迟、吞吐、Token 用量、单次成本、质量评分、幻觉率、拒答率、重试率、限流率和用户满意度。
真实面经题目 · 原创解析
调用大模型服务时,核心指标不能只看接口是否成功,还要同时关注效果、成本、性能、稳定性和安全。典型指标包括请求成功率、错误率、首 token 延迟、总延迟、吞吐、Token 用量、单次成本、质量评分、幻觉率、拒答率、重试率、限流率和用户满意度。
可以按五类指标回答。第一是可用性,关注成功率、错误率、超时率、限流率、重试率和服务降级次数;第二是性能,关注首 token 延迟、总响应耗时、流式输出间隔、并发量和吞吐;第三是成本,关注输入输出 token、缓存命中、模型单价、单请求成本和每个业务结果的成本;第四是效果,关注任务完成率、答案采纳率、人工改写率、幻觉率、格式合规率和用户满意度;第五是安全合规,关注敏感内容拦截、越权访问、提示注入命中、数据泄露风险和审计覆盖。面试中最好说明这些指标要按模型、场景、版本、用户层级和请求类型分维度观察。
大模型服务通常依赖外部供应商、网关、检索系统和业务后端,因此可用性要拆开看。请求成功率、HTTP 错误率、模型错误码、超时率、限流率、重试率、熔断次数和降级次数能帮助定位是模型不可用、网络波动、上游限额、还是业务编排失败。只看最终成功率会掩盖重试和降级成本。
大模型响应慢会直接影响产品体验。非流式场景关注总延迟,流式场景还要关注首 token 延迟、token 间隔、输出速度和用户可感知等待。对于批处理和后台任务,还要看吞吐、队列积压、并发利用率和超时分布。性能指标最好看 p50、p95、p99,而不是只看平均值。
模型调用成本通常与输入 token、输出 token、模型档位、缓存命中、重试次数和工具调用次数有关。单请求成本只是起点,更重要的是每次有效完成任务的成本,例如每个成功客服解决、每份可用报告、每次被采纳代码建议的成本。这样才能判断模型选择和提示词长度是否具有商业可持续性。
质量不能只依赖人工主观印象。不同场景可以定义任务完成率、答案采纳率、用户追问率、人工改写率、格式合规率、事实一致性、幻觉率、拒答率、代码通过率或检索引用命中率。质量指标必须和业务目标绑定,例如客服看解决率,代码助手看通过测试和采纳,内容生成看审核通过和编辑成本。
大模型调用还要关注安全边界。提示注入命中、越权工具调用、敏感信息输出、违规内容拦截、用户数据脱敏覆盖、审计日志完整性和人工升级率,都是生产系统的重要指标。高风险业务中,安全指标应和质量指标同等重要,因为一次泄露或越权可能比多次回答不佳更严重。
取决于场景。聊天和写作助手中首 token 延迟决定用户是否觉得有响应,总延迟决定完整任务完成速度。后台批处理更关注总耗时、吞吐和队列积压。
要按任务定义。客服看解决率和转人工率,代码看测试通过和采纳率,问答看事实一致性和引用支持,结构化抽取看字段准确率和格式合规率。
可能说明供应商稳定性差、超时设置不合理、限流频繁、提示词导致输出格式不稳定,或业务编排失败。重试会放大延迟和成本,不能只看最终成功。
因为单次调用便宜不代表业务划算。如果大量调用没有产生有效结果,真实成本会很高。按成功解决、采纳、审核通过等结果归因,更能指导模型和策略选择。