真实面经题目 · 原创解析
召回率和置信度分别是什么,在 AI 产品评估和策略决策中如何使用?
这题考 AI 产品基础指标理解。召回率衡量应命中的目标被找回多少,置信度表达模型对单次预测的把握程度;产品决策要结合 precision、阈值、风险分层和人工兜底,而不是孤立使用。
真实面经题目 · 原创解析
这题考 AI 产品基础指标理解。召回率衡量应命中的目标被找回多少,置信度表达模型对单次预测的把握程度;产品决策要结合 precision、阈值、风险分层和人工兜底,而不是孤立使用。
召回率和置信度是两个层面的概念。召回率是集合级指标,通常定义为真正例中被模型找出来的比例,也就是 TP / (TP + FN)。它回答的是“该找的有没有找全”,常用于搜索召回、风控识别、审核命中、推荐候选和分类任务。召回率低意味着漏掉了很多目标,比如该拦截的风险内容没拦住,或者该推荐的候选没进入后续排序。 置信度是单次预测层面的分数,表示模型对某个判断、类别或答案的把握程度。它可能来自分类概率、相似度分数、检测得分、生成模型打分或额外校准模型。置信度不等于一定正确,因为模型可能过度自信,所以需要校准和业务验证。 产品使用上,召回率通常和精确率一起看。提高召回可能带来更多误报,提高精确可能漏掉更多目标。不同场景取舍不同:内容安全、风控、医疗预警更重视高召回并配人工复核;营销推荐和普通提示可能更重视精确和体验。置信度则适合做阈值、分层和兜底:高置信自动通过或自动处理,中置信进入人工审核或二次模型,低置信拒绝、追问或不展示。成熟回答还要补充校准、分人群阈值、线上监控和成本约束,避免把一个统一阈值硬套所有场景。
召回率关注真实目标中有多少被模型命中,核心风险是漏检。它适合评价搜索候选、风险识别、审核命中、推荐召回和信息抽取等任务的覆盖能力。面试回答要强调它是集合级结果,不是单条样本的可信度。
置信度描述某次预测或候选结果的可信程度,可以用于排序、阈值、分层处理和用户提示。但置信度需要校准,不能把高分直接等同于事实正确,尤其在训练数据和线上流量分布不一致时更容易过度自信。
单独追求召回率会带来误报和体验伤害。产品要结合 precision、F1、AUC、PR 曲线、业务损失和处理成本选择阈值。比如审核场景误报会增加人工成本,推荐场景误报会伤害用户体验。
高风险场景可以用低阈值提高召回,再通过人工或二次模型降低误伤;低风险场景可以提高阈值,减少打扰和错误展示。阈值不应全局固定,而要按场景、用户、内容类型和处理成本分层。
模型分数会随数据分布、版本和用户行为变化而漂移。需要监控召回、误报、漏报、置信度校准、人工复核通过率和用户反馈。
看业务错误成本。漏掉风险代价高就提高召回,并用人工复核控制误报;误伤用户代价高就提高精确,并接受部分低价值漏召回。
模型分数可能未校准,训练分布和线上分布不同,也可能遇到对抗样本、歧义输入或长尾样本。高置信只代表模型内部把握高,不代表事实必然正确。
可以做分层:高置信自动处理,中置信进入人工或二次验证,低置信不展示、追问用户或返回保守答案。不同场景设置不同阈值和兜底动作。
把预测按置信度分桶,看每个桶的实际准确率是否匹配;也可以看校准误差、人工复核通过率和线上投诉反馈。