如何用多模态大模型识别商品图片并生成可靠的商品描述？｜阿里巴巴算法面经解析

60 秒回答模板

我会把它拆成识别、结构化、生成、校验和评估五步。第一步先用视觉编码器或多模态大模型理解商品图片，识别主体、类目、颜色、材质、款式、品牌标识、文字和关键细节；如果图片里有文字，还要结合 OCR 或版面理解。第二步不要直接让模型自由写长文，而是先抽取结构化属性，例如品类、卖点、适用场景、规格和不确定字段。第三步用这些属性生成商品描述，并通过提示词或模板约束语气、长度、禁用夸大词和必须覆盖的字段。第四步做可靠性控制，对模型低置信、属性冲突、无法确认的品牌/参数要降级为保守表达、触发检索补充或人工审核。第五步评估时不能只看文案流畅，要看属性准确率、幻觉率、违禁词、用户点击转化、商家采纳和人工修改率。面试里要强调商品描述不是普通 caption，核心是商品事实不能乱编，商业文案要可控、可审核、可回滚。

考点 先抽属性

难度 真实面经题

回答目标 讲清机制、训练与评估取舍

深入解析

先定义输出边界

商品描述生成不是简单给图片写一句 caption。它要服务商品详情、搜索召回、推荐理解和商家运营，所以输出必须围绕可验证属性、核心卖点、适用场景和平台规范。回答时先说明哪些信息可以从图片判断，哪些需要商品标题、类目、SKU、商家资料或检索知识补充。

视觉理解负责提取证据

图片侧要识别主体类别、颜色、形状、材质、图案、数量、包装、场景和可见文字。多模态大模型可以直接做图文理解，也可以结合检测、OCR、分类和属性模型形成候选证据。关键点是把可见证据保存下来，后续描述要从这些证据出发。

结构化属性比自由生成更稳

更可靠的流程通常先让模型输出结构化字段，例如类目、颜色、材质、风格、功能、适用人群和不确定项，再把字段转成自然语言。这样便于校验、补全、过滤和人工审核，也能避免模型为了文案好看而编造不可见参数。

生成阶段要有约束

商品文案要控制长度、语气、卖点顺序和合规边界。可以要求只描述有证据的属性，不写绝对化承诺，不凭空添加品牌、产地、成分、功效或价格。对于不确定字段，应使用保守描述或留空，而不是把猜测包装成事实。

可靠性来自多重校验

生成后要做属性一致性检查、OCR 文本一致性、类目规则检查、敏感词和广告法风险检查，也可以把描述反向解析成属性再和原始证据比对。低置信样本、冲突样本和高风险类目应进入人工审核或检索补充流程。

评估要覆盖事实和业务

离线评估看属性准确率、漏召率、幻觉率、OCR 正确性、人工标注一致性和违规率；线上评估看商家采纳率、人工修改率、点击率、转化率、投诉率和审核拦截率。只看 BLEU、ROUGE 或文案流畅度无法说明商品描述是否可靠。

易错点

把商品描述生成等同于通用图片 caption，没有说明商品属性和商业合规约束。
让模型凭图片猜品牌、材质、功效、产地或规格，缺少不确定性处理。
只讲视觉识别，不讲结构化属性、文案模板和生成后校验。
只用文本相似度评价，忽略属性准确率、幻觉率和人工修改率。
没有区分类目差异，高风险商品和普通服饰商品使用同一套生成规则。
忽略 OCR、商品标题、SKU 和商家资料等可用证据，导致图片信息不足时胡编。

面试官追问

为什么不能直接让 MLLM 根据图片生成一段商品描述？

直接生成容易把不确定信息写成事实。先抽取属性再生成，可以对类目、颜色、材质、文字和卖点做校验，也便于人工审核和规则过滤。

如果图片只能看出外观，看不出材质或功效怎么办？

材质和功效应标记为不确定，优先从商品标题、规格、商家资料或可信知识源补充；仍不能确认时不写，或者用外观描述替代。

如何降低商品描述里的幻觉？

可以做结构化属性约束、证据引用、反向一致性检查、规则过滤、检索增强、低置信拒写和人工审核，尤其要限制品牌、功效、成分、产地等高风险字段。

商品描述生成怎么做评估集？

构建带图片、类目、标题、人工属性和合规标签的数据集，按类目分层评估属性准确率、漏掉关键卖点的比例、幻觉率、违规率和人工可用性。