知识点标签

多模态学习面试题解析第 2 页

多模态学习相关面试题,覆盖文本、图像、结构化特征的融合与对齐。

63 道题 4 个岗位 14 个公司

多模态学习相关面试题第 2 页

文本搜图场景如何设计图片搜索系统,让用户搜“小狗”时能召回包含小狗的图片?

文本搜图系统要让用户输入“小狗”时召回包含小狗的图片,核心不是只按文件名搜索,而是建立图片内容理解、文本语义表示、索引召回和排序评估的完整链路。图片侧需要离线或实时提取对象标签、检测框、caption、OCR、视觉向量和多模态向量;查询侧需要把文本解析成语义向量和关键词;召回侧结合倒排索引、向量检索和元数据过滤;排序侧再按语义匹配、对象置信度、图片质量和用户意图重排。

多模态/RAG 项目上线前如何设计评价指标,如何拆分整体效果与 RAG 子模块指标?

这题考察的不是“能不能背几个指标名”,而是能否把多模态/RAG 项目上线前的评价体系拆成可决策、可归因、可监控的指标框架。来源只支持“项目上线前评价指标”和“RAG 子模块评价指标”这两个面试追问,因此回答应聚焦通用方法论,不编造任何阿里内部指标。高质量答案要先定义上线目标和风险边界,再把评价拆成三层:端到端业务效果、模型回答质量、RAG 链路子模块效果。最终要能回答三个问题:整体效果好不好、如果不好是哪一段坏了、达到什么阈值才能灰度上线。

多源检索 Agent 如何判断证据已足够生成结论,在文献、病历和网页结果冲突时划分可信优先级并排序筛选,同时用停止条件避免死循环?

这题考多源检索 Agent 的证据治理能力。高质量回答要说明如何拆解问题、判断证据是否足够、处理文献/病历/网页冲突、排序筛选来源,并用明确停止条件避免检索和推理循环失控。

视频 AIGC 的多镜头与智能分镜调度能力,如何划分模型侧与产品侧交付边界,并设计可控参数、质量指标和异常兜底?

这题考视频 AIGC 产品经理能否划清模型能力、产品编排和用户控制之间的边界。好答案要讲清模型侧负责生成质量和多镜头一致性,产品侧负责工作流、参数控制、质量门禁和异常兜底,并用结构化分镜协议把两边衔接起来。

VLM 做 SFT 后过度依赖文本、忽略图像并产生视觉幻觉时,如何从数据、loss mask、图文对齐、hard negative 和评测切片排查修复?

这题考 VLM 训练排障能力。重点不是泛泛说“加图像数据”,而是要从 SFT 数据比例、文本捷径、loss mask、视觉 token 利用、图文对齐、hard negative、消融实验和评测切片系统定位:模型是没有看视觉信息,还是看了但对齐差,还是评测集暴露了特定幻觉类型。

已有数字人视频生成模型如何定向训练为只生成指定人物,并设计身份一致性数据、参考图注入、训练约束和评估指标?

这题考数字人视频生成的定向个性化训练方案。重点要覆盖指定人物数据集、参考图像注入、微调策略、身份约束、时序一致性、安全合规和评估指标。好的回答会说明如何让模型只生成目标人物,同时避免过拟合、身份漂移、动作僵硬和未经授权的人脸生成风险。