多模态大模型遇到未见过的商品或对象时，如何识别不确定性并兜底？｜阿里巴巴算法面经解析

60 秒回答模板

多模态大模型遇到没见过的商品时，最危险的不是答不出来，而是高置信地编一个答案。我会从三层处理。第一层是识别不确定性：看模型输出概率或 logprob、多个采样答案是否一致、视觉分类置信度、图文匹配分数、OCR 和检测结果是否冲突。第二层是 OOD 判断：把图片或图文 embedding 与已知商品库、类目中心、相似样本做距离比较，结合专门的开放集识别或异常检测模型，判断是否离训练或业务分布太远。第三层是兜底策略：低风险可以输出保守描述或让用户补充信息；中风险走检索增强、相似商品对齐或只输出可见属性；高风险进入人工审核、拒答或标记为未知类目。评估时要看 OOD 召回率、误拒率、幻觉率、人工审核命中率和用户体验。面试里要强调不确定性不是一个单独分数能解决，需要模型信号、业务知识库、规则和人工流程组合。

考点 不要强答

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

先说明风险

未见过商品可能是新品、小众品、相似外观、跨类目商品、低质图片或训练数据缺失。模型如果按最相似的已知类目强行回答，就会出现错类目、错品牌、错功效和错规格，影响搜索、推荐、审核和用户信任。

模型内部信号只能作为参考

可以利用生成概率、答案一致性、视觉分类置信度、图文匹配分数和检测结果冲突来估计不确定性。但大模型可能校准不好，不能只凭一句自然语言自评就判断可靠，最好把内部分数和外部检索信号结合。

用分布距离识别 OOD

业务上可以维护已知商品、类目和属性的 embedding 空间。新图片进入后，与相似商品、类目中心和历史样本比较距离；如果最近邻相似度低、类目投票分散或视觉属性冲突，就提高 OOD 风险。开放集分类、异常检测和类目层级阈值也可以加入。

输出策略要分风险等级

轻度不确定时可以只输出可见外观属性；中度不确定时触发检索、让用户补充标题或规格，或者给出候选类目；高风险或高价值商品应拒绝生成确定描述，转人工审核。核心原则是宁可保守，也不要把猜测包装成事实。

兜底不等于失败

兜底可以包括相似商品检索、知识库补充、类目树回退、人工标注、主动澄清、只生成通用描述、延迟发布或进入质检队列。对于电商场景，保守、可追溯的兜底通常比错误自动化更有价值。

评估要看校准和业务损失

离线要构造已知类目、未知类目、长尾新品、相似干扰和低质图片样本，评估 OOD 召回、误拒、校准误差和幻觉率。线上要看人工审核命中率、商家修改率、用户投诉、召回覆盖和兜底带来的时延成本。

易错点

把未见过商品当成普通分类错误，只说增加训练数据，没有讲在线不确定性和兜底。
完全依赖模型自然语言自评置信度，忽略校准问题。
只设一个全局阈值，不按类目、风险和图片质量分层。
低置信时仍生成确定品牌、材质或功效，造成业务幻觉。
把人工审核当作唯一方案，没有检索、澄清和保守输出等中间层。
只追求 OOD 召回，忽略误拒率、时延、审核成本和用户体验。

面试官追问

MLLM 自己说不确定，能直接作为 OOD 判断吗？

不能只依赖自述。模型可能过度自信或过度保守，应结合 embedding 最近邻、分类置信、采样一致性、检测/OCR 冲突和业务规则综合判断。

OOD 阈值怎么定？

可以用验证集按类目分层选择阈值，在 OOD 召回和误拒之间权衡。高风险类目阈值更保守，普通类目可以允许更多自动化，同时持续用线上人工审核结果校准。

如果模型不知道具体商品，但能看出颜色和外观，怎么输出？

只输出可见且低风险的外观属性，例如颜色、形状、图案和场景；品牌、材质、功效、规格等不可确认字段不要写成确定事实。

如何判断兜底策略是否过于保守？

看误拒率、人工审核通过后发现其实可自动处理的比例、用户补充信息次数、处理时延和转化损失，同时和幻觉率及投诉率一起权衡。