真实面经题目 · 原创解析
多模态大模型遇到未见过的商品或对象时,如何识别不确定性并兜底?
这题考多模态大模型遇到未见过商品或对象时的风险控制,回答重点是不确定性识别、OOD 检测、检索或人工兜底,以及避免把猜测说成事实。
真实面经题目 · 原创解析
这题考多模态大模型遇到未见过商品或对象时的风险控制,回答重点是不确定性识别、OOD 检测、检索或人工兜底,以及避免把猜测说成事实。
多模态大模型遇到没见过的商品时,最危险的不是答不出来,而是高置信地编一个答案。我会从三层处理。第一层是识别不确定性:看模型输出概率或 logprob、多个采样答案是否一致、视觉分类置信度、图文匹配分数、OCR 和检测结果是否冲突。第二层是 OOD 判断:把图片或图文 embedding 与已知商品库、类目中心、相似样本做距离比较,结合专门的开放集识别或异常检测模型,判断是否离训练或业务分布太远。第三层是兜底策略:低风险可以输出保守描述或让用户补充信息;中风险走检索增强、相似商品对齐或只输出可见属性;高风险进入人工审核、拒答或标记为未知类目。评估时要看 OOD 召回率、误拒率、幻觉率、人工审核命中率和用户体验。面试里要强调不确定性不是一个单独分数能解决,需要模型信号、业务知识库、规则和人工流程组合。
未见过商品可能是新品、小众品、相似外观、跨类目商品、低质图片或训练数据缺失。模型如果按最相似的已知类目强行回答,就会出现错类目、错品牌、错功效和错规格,影响搜索、推荐、审核和用户信任。
可以利用生成概率、答案一致性、视觉分类置信度、图文匹配分数和检测结果冲突来估计不确定性。但大模型可能校准不好,不能只凭一句自然语言自评就判断可靠,最好把内部分数和外部检索信号结合。
业务上可以维护已知商品、类目和属性的 embedding 空间。新图片进入后,与相似商品、类目中心和历史样本比较距离;如果最近邻相似度低、类目投票分散或视觉属性冲突,就提高 OOD 风险。开放集分类、异常检测和类目层级阈值也可以加入。
轻度不确定时可以只输出可见外观属性;中度不确定时触发检索、让用户补充标题或规格,或者给出候选类目;高风险或高价值商品应拒绝生成确定描述,转人工审核。核心原则是宁可保守,也不要把猜测包装成事实。
兜底可以包括相似商品检索、知识库补充、类目树回退、人工标注、主动澄清、只生成通用描述、延迟发布或进入质检队列。对于电商场景,保守、可追溯的兜底通常比错误自动化更有价值。
离线要构造已知类目、未知类目、长尾新品、相似干扰和低质图片样本,评估 OOD 召回、误拒、校准误差和幻觉率。线上要看人工审核命中率、商家修改率、用户投诉、召回覆盖和兜底带来的时延成本。
不能只依赖自述。模型可能过度自信或过度保守,应结合 embedding 最近邻、分类置信、采样一致性、检测/OCR 冲突和业务规则综合判断。
可以用验证集按类目分层选择阈值,在 OOD 召回和误拒之间权衡。高风险类目阈值更保守,普通类目可以允许更多自动化,同时持续用线上人工审核结果校准。
只输出可见且低风险的外观属性,例如颜色、形状、图案和场景;品牌、材质、功效、规格等不可确认字段不要写成确定事实。
看误拒率、人工审核通过后发现其实可自动处理的比例、用户补充信息次数、处理时延和转化损失,同时和幻觉率及投诉率一起权衡。