真实面经题目 · 原创解析
如何用多模态大模型识别商品图片并生成可靠的商品描述?
这题考用多模态大模型从商品图片生成可靠商品描述的完整链路,回答重点是视觉理解、属性抽取、文本生成约束、事实校验和评估闭环。
真实面经题目 · 原创解析
这题考用多模态大模型从商品图片生成可靠商品描述的完整链路,回答重点是视觉理解、属性抽取、文本生成约束、事实校验和评估闭环。
我会把它拆成识别、结构化、生成、校验和评估五步。第一步先用视觉编码器或多模态大模型理解商品图片,识别主体、类目、颜色、材质、款式、品牌标识、文字和关键细节;如果图片里有文字,还要结合 OCR 或版面理解。第二步不要直接让模型自由写长文,而是先抽取结构化属性,例如品类、卖点、适用场景、规格和不确定字段。第三步用这些属性生成商品描述,并通过提示词或模板约束语气、长度、禁用夸大词和必须覆盖的字段。第四步做可靠性控制,对模型低置信、属性冲突、无法确认的品牌/参数要降级为保守表达、触发检索补充或人工审核。第五步评估时不能只看文案流畅,要看属性准确率、幻觉率、违禁词、用户点击转化、商家采纳和人工修改率。面试里要强调商品描述不是普通 caption,核心是商品事实不能乱编,商业文案要可控、可审核、可回滚。
商品描述生成不是简单给图片写一句 caption。它要服务商品详情、搜索召回、推荐理解和商家运营,所以输出必须围绕可验证属性、核心卖点、适用场景和平台规范。回答时先说明哪些信息可以从图片判断,哪些需要商品标题、类目、SKU、商家资料或检索知识补充。
图片侧要识别主体类别、颜色、形状、材质、图案、数量、包装、场景和可见文字。多模态大模型可以直接做图文理解,也可以结合检测、OCR、分类和属性模型形成候选证据。关键点是把可见证据保存下来,后续描述要从这些证据出发。
更可靠的流程通常先让模型输出结构化字段,例如类目、颜色、材质、风格、功能、适用人群和不确定项,再把字段转成自然语言。这样便于校验、补全、过滤和人工审核,也能避免模型为了文案好看而编造不可见参数。
商品文案要控制长度、语气、卖点顺序和合规边界。可以要求只描述有证据的属性,不写绝对化承诺,不凭空添加品牌、产地、成分、功效或价格。对于不确定字段,应使用保守描述或留空,而不是把猜测包装成事实。
生成后要做属性一致性检查、OCR 文本一致性、类目规则检查、敏感词和广告法风险检查,也可以把描述反向解析成属性再和原始证据比对。低置信样本、冲突样本和高风险类目应进入人工审核或检索补充流程。
离线评估看属性准确率、漏召率、幻觉率、OCR 正确性、人工标注一致性和违规率;线上评估看商家采纳率、人工修改率、点击率、转化率、投诉率和审核拦截率。只看 BLEU、ROUGE 或文案流畅度无法说明商品描述是否可靠。
直接生成容易把不确定信息写成事实。先抽取属性再生成,可以对类目、颜色、材质、文字和卖点做校验,也便于人工审核和规则过滤。
材质和功效应标记为不确定,优先从商品标题、规格、商家资料或可信知识源补充;仍不能确认时不写,或者用外观描述替代。
可以做结构化属性约束、证据引用、反向一致性检查、规则过滤、检索增强、低置信拒写和人工审核,尤其要限制品牌、功效、成分、产地等高风险字段。
构建带图片、类目、标题、人工属性和合规标签的数据集,按类目分层评估属性准确率、漏掉关键卖点的比例、幻觉率、违规率和人工可用性。