召回率和置信度分别是什么，在 AI 产品评估和策略决策中如何使用？｜腾讯产品面经解析

60 秒回答模板

召回率和置信度是两个层面的概念。召回率是集合级指标，通常定义为真正例中被模型找出来的比例，也就是 TP / (TP + FN)。它回答的是“该找的有没有找全”，常用于搜索召回、风控识别、审核命中、推荐候选和分类任务。召回率低意味着漏掉了很多目标，比如该拦截的风险内容没拦住，或者该推荐的候选没进入后续排序。置信度是单次预测层面的分数，表示模型对某个判断、类别或答案的把握程度。它可能来自分类概率、相似度分数、检测得分、生成模型打分或额外校准模型。置信度不等于一定正确，因为模型可能过度自信，所以需要校准和业务验证。产品使用上，召回率通常和精确率一起看。提高召回可能带来更多误报，提高精确可能漏掉更多目标。不同场景取舍不同：内容安全、风控、医疗预警更重视高召回并配人工复核；营销推荐和普通提示可能更重视精确和体验。置信度则适合做阈值、分层和兜底：高置信自动通过或自动处理，中置信进入人工审核或二次模型，低置信拒绝、追问或不展示。成熟回答还要补充校准、分人群阈值、线上监控和成本约束，避免把一个统一阈值硬套所有场景。

考点 召回率看漏检

难度 真实面经题

回答目标 让面试官看到你既理解指标定义，也能把召回率、置信度、阈值和兜底策略用于真实 AI 产品决策。

深入解析

召回率是找全程度

召回率关注真实目标中有多少被模型命中，核心风险是漏检。它适合评价搜索候选、风险识别、审核命中、推荐召回和信息抽取等任务的覆盖能力。面试回答要强调它是集合级结果，不是单条样本的可信度。

置信度是单次把握

置信度描述某次预测或候选结果的可信程度，可以用于排序、阈值、分层处理和用户提示。但置信度需要校准，不能把高分直接等同于事实正确，尤其在训练数据和线上流量分布不一致时更容易过度自信。

必须和精确率一起看

单独追求召回率会带来误报和体验伤害。产品要结合 precision、F1、AUC、PR 曲线、业务损失和处理成本选择阈值。比如审核场景误报会增加人工成本，推荐场景误报会伤害用户体验。

按风险分层使用

高风险场景可以用低阈值提高召回，再通过人工或二次模型降低误伤；低风险场景可以提高阈值，减少打扰和错误展示。阈值不应全局固定，而要按场景、用户、内容类型和处理成本分层。

上线后持续校准

模型分数会随数据分布、版本和用户行为变化而漂移。需要监控召回、误报、漏报、置信度校准、人工复核通过率和用户反馈。

易错点

把召回率说成准确率，混淆 TP、FP 和 FN。
认为置信度就是正确概率，不提校准和分布漂移。
只追求高召回，忽略误报、人工成本和用户体验。
所有场景使用同一个阈值，缺少风险分层。
只讲公式，不说明在审核、推荐、搜索和风控产品中的使用方式。

面试官追问

召回率和精确率如何取舍？

看业务错误成本。漏掉风险代价高就提高召回，并用人工复核控制误报；误伤用户代价高就提高精确，并接受部分低价值漏召回。

置信度高为什么也可能错？

模型分数可能未校准，训练分布和线上分布不同，也可能遇到对抗样本、歧义输入或长尾样本。高置信只代表模型内部把握高，不代表事实必然正确。

如何把置信度用于产品策略？

可以做分层：高置信自动处理，中置信进入人工或二次验证，低置信不展示、追问用户或返回保守答案。不同场景设置不同阈值和兜底动作。

如何验证置信度是否可靠？

把预测按置信度分桶，看每个桶的实际准确率是否匹配；也可以看校准误差、人工复核通过率和线上投诉反馈。