知识点标签

多模态学习面试题解析

多模态学习相关面试题，覆盖文本、图像、结构化特征的融合与对齐。

63 道题 4 个岗位 14 个公司

标签题目

多模态学习相关面试题

百度 / 算法

多模态特征怎么融合？

多模态特征融合要解决不同模态的表示、对齐、尺度、缺失和交互问题。面试回答可按早期融合、中期融合、晚期融合和注意力/跨模态交互展开，再补充训练目标、缺失模态和线上成本。

多模态学习特征工程推荐系统

美团 / 算法

多模态模型中的模态对齐方法有哪些？

多模态对齐方法包括对比学习、投影到共享空间、跨注意力融合、指令微调、图文匹配损失和细粒度 token/patch 对齐。

多模态学习大语言模型 Embedding

小米 / 算法

加入雷达点云作为第三模态时，3D 多模态感知如何调整表征和对齐策略？

这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征，再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。

多模态学习计算机视觉 Embedding 神经网络

字节跳动 / 算法

OCR 输出为什么要保留 bbox 和 spatial layout，后续如何给多模态理解模型使用？

这道题考察 OCR 结果如何从纯文本升级为可供多模态理解使用的结构化表示。回答重点不是检测识别算法，而是 text、bbox、reading order、confidence 和视觉区域如何一起进入下游模型。

计算机视觉多模态学习特征工程 Embedding

京东 / 算法

Qwen-VL 如何压缩图片 token，多模态大模型中图像 token 和文本 token 的处理链路有什么差异？

这道题考察多模态大模型里视觉 token 的压缩和图文 token 进入 LLM 前的差异。回答要说清图片先变成连续视觉特征再压缩投影，文本则经过离散 tokenizer 直接得到词向量，两者在融合前的链路不同。

通义千问多模态学习大语言模型 Transformer

美团 / 产品

文生图大模型产品如何制定评估标准，并选择人审还是机审？

这题考文生图产品评估体系设计，回答要覆盖评估维度、样本集、人工与自动评估分工、标准迭代和上线 gate。

AI 产品产品管理产品指标模型评估多模态学习计算机视觉

百度 / 算法

原始视频内容如何通过多模态模型生成推荐系统可用的向量表示？

这题考原始视频到推荐向量的多模态表示链路，回答要覆盖采样、编码、融合、训练目标、上线使用和评估。

多模态学习 Embedding 推荐系统计算机视觉模型评估

小米 / 算法

文生 3D 任务中，Stable Diffusion 输出如何与 NeRF / SDF 重建方法结合？

这题考文生 3D 中 2D diffusion 先验和 3D 表示优化的结合，回答要讲清 SDS、多视角一致性、NeRF/SDF 取舍和评估。

多模态学习计算机视觉大语言模型模型训练模型评估

小米 / 算法

视频生成中，时序信息对齐和空间对齐哪个更重要，如何取舍？

这题考视频生成中的一致性取舍，回答要说明时序对齐和空间对齐分别解决什么、何时更重要、如何训练和评估。

多模态学习计算机视觉模型评估大语言模型

阿里巴巴 / 产品

AIGC 产品中人物一致性、音色一致性和多人物稳定性如何评测？

这题考多模态 AIGC 的一致性评测，重点是把人物、音色和多人物稳定性拆成可标注、可自动检测、可线上验证的指标体系。

AI 产品产品管理模型评估产品指标多模态学习计算机视觉

阿里巴巴 / 产品

视频 AIGC 从 0 到 1 时，如何设计离线评估、线上实验和用户采纳闭环？

这题考视频 AIGC 从 0 到 1 的产品验证闭环，回答要覆盖离线效果评估、线上实验、用户采纳和复盘迭代。

AI 产品产品管理模型评估产品指标 A/B 测试多模态学习

阿里巴巴 / 产品

一键短视频生成产品如何选择文生视频、首尾帧、多图生视频和音频口型能力的迭代顺序？

这题考一键短视频生成产品的能力组合和迭代顺序，回答要按用户场景、可控性、质量风险、成本、依赖关系和指标验证来排序。

AI 产品产品管理多模态学习计算机视觉产品指标

滴滴 / 算法

Qwen2-VL 微调时应如何处理多模态数据、视觉 token、训练参数和评估？

这题考 Qwen2-VL 微调的多模态工程思路，答案应讲数据构造、视觉 token 预算、参数策略、loss masking、训练稳定性和评估闭环，不依赖具体版本细节。

通义千问多模态学习大语言模型模型微调模型评估

美团 / 算法

多模态大模型应用中，为什么选择 Qwen2.5-VL 做 encoder，如何评估取舍？

这题考多模态模型作为 encoder 的选型取舍，答案要围绕任务适配、表征质量、可抽取性、微调成本、延迟成本、部署稳定性和离线在线评估展开。

通义千问多模态学习大语言模型模型评估计算机视觉

小红书 / 算法

Q-former 和 Q-fusion 在多模态大模型中有什么区别，分别如何完成视觉-语言交互？

这题考多模态大模型里视觉特征如何和语言模型交互，回答重点是 Q-Former 的查询瓶颈、Q-fusion 的融合位置、跨注意力机制、训练信号和信息压缩取舍。

多模态学习大语言模型 Transformer 注意力机制计算机视觉

小红书 / 算法

LLaVA 的整体结构如何把视觉编码器输出接入语言模型？

这题考 LLaVA 的视觉编码器、投影层、语言模型和指令微调流程，回答要讲清视觉特征如何变成 LLM 可消费的 token 表示。

多模态学习大语言模型计算机视觉 Transformer Embedding

小米 / 算法

从零构建 VLA 模型时，视觉、语言和动作模块应如何设计？

这题考从零设计 Vision-Language-Action 模型的系统拆解，重点是感知编码、语言 grounding、动作表示、策略头、数据闭环、仿真到真实迁移和评估。

多模态学习计算机视觉大语言模型模型训练强化学习

小米 / 算法

VLA 模型和世界模型有什么区别，VLA+RL 适合哪些具身智能场景？

这题考 VLA、世界模型和强化学习在具身智能中的边界，回答要区分动作条件策略、环境动力学建模、规划想象和 RL 微调的适用场景。

多模态学习强化学习模型训练大语言模型计算机视觉

滴滴 / 算法

多模态 Agentic RL 中用 VERL 做强化学习时，如何判断训练进度和收敛质量？

这题考多模态 Agentic RL 训练过程的可观测和收敛判断，回答要覆盖奖励曲线、成功率分层、KL/熵、rollout 质量、视觉 grounding 和回归评测。

同题还出现在 1 个公司岗位

多模态学习 AI Agent 强化学习模型训练模型评估大语言模型

滴滴 / 算法

医疗手写表格场景中，如何提升多模态模型对字段和值的识别准确度？

这题考医疗手写表格的多模态识别链路，重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。

多模态学习计算机视觉模型评估特征工程大语言模型质量工程

小米 / 产品

AI 绘画产品如何设计 prompt 输入方式和用户自定义能力？

这题考 AI 绘画产品的 prompt 输入和自定义能力设计，重点是降低新手门槛、保留高手控制感、提供生成反馈并控制风险。

AI 产品产品管理 Prompt 工程多模态学习

阿里巴巴 / 算法

如何用多模态大模型识别商品图片并生成可靠的商品描述？

这题考用多模态大模型从商品图片生成可靠商品描述的完整链路，回答重点是视觉理解、属性抽取、文本生成约束、事实校验和评估闭环。

多模态学习计算机视觉大语言模型模型评估

阿里巴巴 / 算法

多模态大模型遇到未见过的商品或对象时，如何识别不确定性并兜底？

这题考多模态大模型遇到未见过商品或对象时的风险控制，回答重点是不确定性识别、OOD 检测、检索或人工兜底，以及避免把猜测说成事实。

多模态学习计算机视觉大语言模型模型评估

阿里巴巴 / 算法

多模态大模型预训练通常分哪些阶段，ViT 视觉编码器如何参与训练？

这题考多模态大模型预训练的阶段拆解，以及 ViT 视觉编码器如何把图片变成可与语言模型对齐的视觉 token。

同公司岗位有 2 条面经记录

多模态学习计算机视觉模型训练 Transformer

字节跳动 / 算法

Video-LLaMA 如何把视频、音频和语言模块连接成多模态理解模型？

这题考 Video-LLaMA 类视频多模态模型的模块连接方式，回答重点是视频帧编码、时间信息聚合、音频分支、投影对齐和语言模型生成。

多模态学习计算机视觉大语言模型 Transformer

字节跳动 / 算法

BLIP-2 的两阶段训练流程和损失函数如何把视觉编码器接入语言模型？

这题考 BLIP-2 如何用两阶段训练把冻结视觉编码器接入冻结语言模型，回答重点是 Q-Former、图文对齐损失和语言建模损失的职责分工。

多模态学习计算机视觉大语言模型模型训练

字节跳动 / 算法

如何用代码实现 Multi-Head Cross-Attention，Q/K/V 的输入维度如何对齐？

这题考手写 Multi-Head Cross-Attention 的维度理解和实现顺序，回答重点是 Q 来自目标序列，K/V 来自条件序列，以及多头拆分、mask 和输出合并。

注意力机制 Transformer Encoder-Decoder 手写题多模态学习

字节跳动 / 算法

CLIP 和 BEiT v3 在训练目标、输入建模和图文对齐方式上有什么区别？

这题考 CLIP 和 BEiT v3 的建模范式差异，回答重点是双塔对比学习、统一多模态建模、输入交互方式和适用任务取舍。

多模态学习计算机视觉 Transformer 模型训练

字节跳动 / 算法

CLIP 的图文对比学习流程如何用伪代码表示？

这题考 CLIP 图文对比学习的训练流程，回答重点是 batch 内配对、图像/文本归一化向量、相似度矩阵、温度系数和对称交叉熵损失。

同题还出现在 1 个公司岗位

多模态学习 Embedding 计算机视觉手写题模型训练

字节跳动 / 算法

BEiT v3 相比 BEiT v2 的 embedding 设计有什么变化？

这题考 BEiT v3 相比 BEiT v2 在输入 embedding 和多模态建模上的变化，回答重点是从图像侧表示学习扩展到图像、文本和图文统一输入。

多模态学习计算机视觉 Transformer Embedding

字节跳动 / 算法

BLIP 如何通过数据清洗和多任务损失提升图文训练数据质量？

这题考 BLIP 里数据 bootstrapping、噪声图文对清洗和多任务预训练目标的关系。回答要聚焦原始 BLIP，不要讲成 BLIP-2 的 Q-Former 两阶段训练。

多模态学习计算机视觉模型训练模型评估

字节跳动 / 算法

多模态或大模型微调数据做质量过滤时，如何选择过滤模型和质量标准？

这题考数据质量治理，而不是问某家公司内部过滤器。回答要从规则、专用模型、跨模态一致性模型、LLM judge/reward model 和人工抽检的组合讲起。

同题还出现在 1 个公司岗位

多模态学习模型训练模型微调模型评估

字节跳动 / 产品

AI 图像生成工具应定位为高效图片搜索引擎，还是激发灵感的创意伙伴？

这题考 AI 图像生成产品的定位取舍。高质量回答要从用户任务、确定性需求、探索性需求、产品形态和指标体系推导，而不是简单站队搜索或创意。

AI 产品产品管理多模态学习产品指标

字节跳动 / 产品

AIGC 图片工具如何通过产品功能系统性降低提示词门槛？

这题考产品经理能否把提示词门槛拆成可设计、可学习、可衡量的用户问题。答案应围绕输入脚手架、可视化选择、结果反推、迭代引导和学习闭环展开。

AI 产品产品管理 Prompt 工程多模态学习

字节跳动 / 产品

AI 图片生成产品提升留存时，如何实验比较出图效果优化和社区广场功能？

这题考留存实验设计，不是让候选人主观判断算法或社区谁更重要。答案要覆盖假设、随机单位、2x2 实验、主指标、护栏、网络效应和 rollout 决策。

AI 产品 A/B 测试产品指标用户增长多模态学习

阿里巴巴 / 产品

电商广告文生视频或图生视频强调多镜头叙事与 15s 成片时，如何定义上线可用的效果目标？

这题考 AI 创作产品经理能否把“15 秒多镜头广告视频可用”定义成可评估目标。好的答案要同时看商业目标、叙事结构、商品和品牌一致性、镜头连续性、平台规格、用户体验、合规红线和线上效果闭环。

AI 产品多模态学习模型评估商业化产品指标

阿里巴巴 / 算法

Qwen 这类图文多模态大模型接入图像理解时，视觉编码、图文对齐和 token 成本有哪些技术难点？

这题考图文多模态大模型接入图像理解的关键工程和算法难点，重点是视觉特征如何进入语言模型、图文语义如何对齐，以及视觉 token 成本如何在效果和延迟之间取舍。

通义千问多模态学习大语言模型计算机视觉 Transformer 模型训练

阿里巴巴 / 产品

视频 AIGC 要成为可规模化使用的生产力工具时，如何定义效果而不是只看生成质量或炫技？

这题考 AI 产品经理是否能把视频 AIGC 的“效果”从单条生成质量扩展到生产力工具指标：采纳、稳定可用、编辑负担、边际成本、规模化运营、复盘闭环和业务 ROI。

AI 产品产品指标模型评估商业化多模态学习产品管理

小红书 / 算法

BLIP 在图文理解和生成任务中如何组织视觉编码、文本编码和跨模态学习目标？

这题考 BLIP 作为图文预训练框架的整体理解：视觉编码器提取图像 token，文本模块在编码和解码模式间复用，并通过对比、匹配和语言建模目标同时支持理解与生成。

多模态学习计算机视觉大语言模型 Transformer 模型训练

阿里巴巴 / 算法

SDXL 相比 Stable Diffusion 主要改进了哪些模块，这些改动分别解决什么生成质量问题？

这题考的是能否把 SDXL 相比 Stable Diffusion 的改进拆到模型容量、文本条件、分辨率训练、尺寸条件、refiner 和数据训练策略，并说明每一项在解决什么生成质量问题。

计算机视觉模型训练多模态学习算法

阿里巴巴 / 算法

Sora 或 Diffusion 3 这类生成模型要实现图像/视频中的精准文字生成，训练和评估上要解决哪些问题？

这题考的是能否把图像/视频中文字生成当作数据、条件控制、分辨率、OCR/字形监督、时序一致性和评估闭环问题来分析，同时避免臆造 Sora 或 Diffusion 3 的闭源内部实现。

计算机视觉多模态学习模型训练模型评估

滴滴 / 算法

多模态图像分支使用最大池化时，反向传播的梯度如何分配，工程实现需要注意哪些边界？

这题考最大池化的反向传播机制：输出梯度只回传给前向窗口中的最大值位置，非最大位置梯度为 0；工程上还要处理重叠窗口、并列最大值、padding、mask 记录和数值边界。

多模态学习计算机视觉神经网络模型训练

美团 / 产品

AIGC 画本产品如何保证角色、风格和场景一致性，ComfyUI 工作流、参考图、种子、ControlNet 和后处理分别起什么作用？

这题考 AIGC 产品经理是否理解图像生成一致性不是单靠提示词，而是由角色设定、参考资产、工作流编排、可控生成、种子复现、后处理和质量评估共同保证。

AI 产品计算机视觉多模态学习 Prompt 工程模型评估

百度 / 算法

多模态大模型微调应如何设计数据、视觉编码器/投影层、指令模板、训练阶段和评测？

这题考的是多模态 LLM 微调的系统设计能力：候选人要能从任务目标出发，讲清数据、架构可训练部分、阶段化训练、模板一致性、指标和回归防护。

多模态学习大语言模型模型微调模型训练模型评估

阿里巴巴 / 算法

连接视觉编码器和 LLM 时，Q-Former 与 LLaVA MLP Adaptor 各有什么优缺点，如何选择？

这题考多模态大模型里视觉特征到语言模型 token 空间的连接器设计。好的回答要说明二者都在解决维度对齐、语义对齐、信息压缩和训练稳定性问题，但 Q-Former 更像带可学习查询的语义压缩器，MLP projector 更像简单直接的视觉 token 映射器，选择取决于数据规模、视觉细节需求、上下文预算、延迟和冻结策略。

多模态学习大语言模型计算机视觉 Transformer 注意力机制 Embedding

小米 / 算法

多模态模型中跨模态注意力机制如何设计，如何举例说明不同模态 token 的对齐和融合？

这题考多模态 Transformer 中跨模态注意力的设计能力。好的回答要讲清楚不同模态 token 如何产生、如何注入位置和类型信息、如何做 cross-attention 或 co-attention、如何处理长度差异和噪声、如何训练对齐，并用图文例子说明文字 token 通过 query 关注图像 patch 或 object token，从而把语义、空间位置和细粒度属性融合起来。

多模态学习注意力机制 Transformer 计算机视觉大语言模型

小米 / 算法

文生图模型的核心框架如何设计，文本编码器、生成主干和图像解码器如何协同？

这题考文生图模型的整体框架理解。好的回答要讲清楚文本编码器把 prompt 变成条件表示，生成主干通常在像素或 latent 空间逐步生成图像，图像解码器把 latent 还原为像素；同时要说明 cross-attention、扩散噪声预测、时间步条件、classifier-free guidance、VAE 编解码、训练损失和推理采样如何协同。

多模态学习计算机视觉 Transformer 大语言模型模型训练

阿里巴巴 / 后端开发

图纸类视觉内容没有文本描述时，如何依托视觉特征、多模态 Embedding 和向量检索实现精准召回？

这题考无文本图纸检索系统设计：要能从图纸预处理、视觉和多模态 embedding、向量索引、混合召回、重排、评估和工程更新链路讲清楚如何提高精准召回。

多模态学习 Embedding 向量数据库计算机视觉 AI 搜索 RAG