计算机视觉面试题解析

标签题目

计算机视觉相关面试题

图分割是什么？以 Normalized Cut 为例如何介绍？

图分割的核心是把像素、超像素或区域划分成语义或视觉一致的子区域，使同一区域内部相似度高、不同区域之间差异大。面试中不要只罗列算法名，最好选择一种方法深入讲清楚：输入如何建模、相似度如何定义、优化目标是什么、怎么求解、效果如何评估、适用边界在哪里。以 Normalized Cut 为例，它把图像表示成加权无向图，把分割转化为图划分问题，通过最小化归一化割代价，避免普通最小割偏向切出很小孤立区域的问题。

计算机视觉算法图论

阿里巴巴 / 算法

图像特征处理用什么网络？

图像特征处理没有单一固定网络，核心是根据任务目标、数据规模、实时性和部署环境选择特征提取骨干网络、任务头和训练策略。传统通用选择是 CNN 骨干，如 ResNet、EfficientNet、MobileNet；如果数据规模较大、需要全局建模或与文本对齐，可以选择 ViT、Swin Transformer 或 CLIP 类多模态编码器；如果是检测、分割、OCR 等结构化任务，还需要 FPN、YOLO、Faster R-CNN、Mask R-CNN、OCR encoder-decoder 等任务头。

计算机视觉模型训练 Transformer

阿里巴巴 / 算法

卷积神经网络原理？

卷积神经网络的核心思想，是利用局部感受野和权重共享，从图像或网格数据中逐层提取特征。卷积核在空间上滑动，对局部区域做加权求和，生成特征图；不同卷积核学习不同模式，浅层常捕捉边缘、纹理和颜色变化，深层逐渐组合成部件、形状和语义概念。CNN 并不是简单记住像素，而是学习从局部到整体的层次化表示。

计算机视觉模型训练

腾讯 / 算法

OpenCV里边缘检测怎么做的？

OpenCV 边缘检测常见流程是灰度化、去噪、计算梯度、非极大值抑制和阈值连接。面试中可以重点讲 Canny，也可以补充 Sobel、Scharr、Laplacian 等算子分别适合检测一阶或二阶变化。

计算机视觉算法

京东 / 算法

数据预处理一般用 OpenCV 做什么？

OpenCV 在数据预处理中常用于图像读取、格式转换、尺寸调整、归一化、去噪、增强、几何变换、颜色空间处理和基础标注清洗。回答要把训练数据处理和上线推理一致性一起讲清楚。

计算机视觉特征工程模型训练

字节跳动 / 算法

如何将 GAN 应用到检测分割中以提升性能？

把 GAN 用到检测分割中，核心是让生成器补充样本、域迁移或生成更难的视觉场景，再用检测分割任务损失和对抗损失共同约束，避免只追求图片逼真。

GAN 计算机视觉模型训练

字节跳动 / 算法

如何实现 NMS 的全过程，包括按 score 排序？

NMS 的流程是按置信度排序，依次保留最高分框，计算它与剩余框的 IoU，并删除重叠过高的候选框，直到候选框处理完。

计算机视觉算法排序算法

百度 / 后端开发

计算机视觉模型与 ChatGPT 这类大模型的网络有什么区别？

计算机视觉模型和 ChatGPT 类大模型的差异主要在输入形态、主干结构、训练目标、上下文建模方式和推理生成范式。

计算机视觉大语言模型神经网络

哔哩哔哩 / 算法

DBNet 和 CTC 分别解决 OCR 中的什么问题，核心原理是什么？

这题考 OCR 检测和识别两段核心链路：DBNet 负责把文字区域找出来，CTC 负责在无字符级对齐标注时训练序列识别。

计算机视觉神经网络模型训练

百度 / 算法

YOLOv3 的结构、多尺度预测和损失函数是什么，YOLOv4 相比 YOLOv3 有哪些改进？

这题考 YOLO 系列检测器的完整理解：YOLOv3 的 backbone、neck、head、多尺度 anchor 预测、损失组成，以及 YOLOv4 的训练和结构增强。

计算机视觉神经网络模型训练

小米 / 算法

MTCNN 的模型结构和训练过程是怎样的？

MTCNN 是级联式人脸检测和关键点定位框架，核心是 P-Net、R-Net、O-Net 逐级候选、筛选、精修，并用多任务损失联合训练。

计算机视觉神经网络模型训练

百度 / 算法

个激光雷达的车如何设计点云分割算法？

这题考多激光雷达点云感知方案，重点是标定同步、多雷达融合、点云表示、分割网络、时序和实时性。

计算机视觉神经网络模型训练

华为 / 算法

膨胀卷积和模型压缩分别解决什么问题？

膨胀卷积主要在不增加太多参数和不降低特征图分辨率的情况下扩大感受野，常用于分割、检测等需要上下文的视觉任务。模型压缩主要解决模型体积、推理延迟、显存和功耗问题，常见方法包括剪枝、量化、蒸馏、低秩分解和轻量化结构设计。

计算机视觉神经网络模型训练

小米 / 算法

加入雷达点云作为第三模态时，3D 多模态感知如何调整表征和对齐策略？

这道题考察 3D 多模态感知的工程化对齐能力。回答要先比较点、体素、BEV、range view 和 query 表征，再说明加入雷达点云后必须处理坐标系、时间同步、运动补偿、稀疏噪声、置信度建模和跨模态融合策略。

多模态学习计算机视觉 Embedding 神经网络

字节跳动 / 算法

OCR 输出为什么要保留 bbox 和 spatial layout，后续如何给多模态理解模型使用？

这道题考察 OCR 结果如何从纯文本升级为可供多模态理解使用的结构化表示。回答重点不是检测识别算法，而是 text、bbox、reading order、confidence 和视觉区域如何一起进入下游模型。

计算机视觉多模态学习特征工程 Embedding

阿里巴巴 / 算法

内容风控中，品牌 logo 风险识别如何兼顾召回、业务管控标准和无关商品过滤？

这道题考察内容风控里的品牌 logo 风险识别如何从“把疑似风险尽量捞出来”走向可上线的业务闭环。回答要覆盖检测识别链路、隐藏真实风险总量下的召回评估、业务管控标准、无关商品过滤、人审和主动学习，以及离线/在线指标和误杀漏放取舍。

计算机视觉广告模型评估特征工程

美团 / 产品

文生图大模型产品如何制定评估标准，并选择人审还是机审？

这题考文生图产品评估体系设计，回答要覆盖评估维度、样本集、人工与自动评估分工、标准迭代和上线 gate。

AI 产品产品管理产品指标模型评估多模态学习计算机视觉

百度 / 算法

原始视频内容如何通过多模态模型生成推荐系统可用的向量表示？

这题考原始视频到推荐向量的多模态表示链路，回答要覆盖采样、编码、融合、训练目标、上线使用和评估。

多模态学习 Embedding 推荐系统计算机视觉模型评估

小米 / 算法

文生 3D 任务中，Stable Diffusion 输出如何与 NeRF / SDF 重建方法结合？

这题考文生 3D 中 2D diffusion 先验和 3D 表示优化的结合，回答要讲清 SDS、多视角一致性、NeRF/SDF 取舍和评估。

多模态学习计算机视觉大语言模型模型训练模型评估

小米 / 算法

视频生成中，时序信息对齐和空间对齐哪个更重要，如何取舍？

这题考视频生成中的一致性取舍，回答要说明时序对齐和空间对齐分别解决什么、何时更重要、如何训练和评估。

多模态学习计算机视觉模型评估大语言模型

阿里巴巴 / 产品

AIGC 产品中人物一致性、音色一致性和多人物稳定性如何评测？

这题考多模态 AIGC 的一致性评测，重点是把人物、音色和多人物稳定性拆成可标注、可自动检测、可线上验证的指标体系。

AI 产品产品管理模型评估产品指标多模态学习计算机视觉

阿里巴巴 / 产品

一键短视频生成产品如何选择文生视频、首尾帧、多图生视频和音频口型能力的迭代顺序？

这题考一键短视频生成产品的能力组合和迭代顺序，回答要按用户场景、可控性、质量风险、成本、依赖关系和指标验证来排序。

AI 产品产品管理多模态学习计算机视觉产品指标

美团 / 算法

多模态大模型应用中，为什么选择 Qwen2.5-VL 做 encoder，如何评估取舍？

这题考多模态模型作为 encoder 的选型取舍，答案要围绕任务适配、表征质量、可抽取性、微调成本、延迟成本、部署稳定性和离线在线评估展开。

通义千问多模态学习大语言模型模型评估计算机视觉

小红书 / 算法

Q-former 和 Q-fusion 在多模态大模型中有什么区别，分别如何完成视觉-语言交互？

这题考多模态大模型里视觉特征如何和语言模型交互，回答重点是 Q-Former 的查询瓶颈、Q-fusion 的融合位置、跨注意力机制、训练信号和信息压缩取舍。

多模态学习大语言模型 Transformer 注意力机制计算机视觉

小红书 / 算法

LLaVA 的整体结构如何把视觉编码器输出接入语言模型？

这题考 LLaVA 的视觉编码器、投影层、语言模型和指令微调流程，回答要讲清视觉特征如何变成 LLM 可消费的 token 表示。

多模态学习大语言模型计算机视觉 Transformer Embedding

小米 / 算法

从零构建 VLA 模型时，视觉、语言和动作模块应如何设计？

这题考从零设计 Vision-Language-Action 模型的系统拆解，重点是感知编码、语言 grounding、动作表示、策略头、数据闭环、仿真到真实迁移和评估。

多模态学习计算机视觉大语言模型模型训练强化学习

小米 / 算法

VLA 模型和世界模型有什么区别，VLA+RL 适合哪些具身智能场景？

这题考 VLA、世界模型和强化学习在具身智能中的边界，回答要区分动作条件策略、环境动力学建模、规划想象和 RL 微调的适用场景。

多模态学习强化学习模型训练大语言模型计算机视觉

滴滴 / 算法

医疗手写表格场景中，如何提升多模态模型对字段和值的识别准确度？

这题考医疗手写表格的多模态识别链路，重点是图像预处理、版面检测、字段和值配对、领域词表、人机校正和字段级评估。

多模态学习计算机视觉模型评估特征工程大语言模型质量工程

阿里巴巴 / 算法

如何用多模态大模型识别商品图片并生成可靠的商品描述？

这题考用多模态大模型从商品图片生成可靠商品描述的完整链路，回答重点是视觉理解、属性抽取、文本生成约束、事实校验和评估闭环。

多模态学习计算机视觉大语言模型模型评估

阿里巴巴 / 算法

多模态大模型遇到未见过的商品或对象时，如何识别不确定性并兜底？

这题考多模态大模型遇到未见过商品或对象时的风险控制，回答重点是不确定性识别、OOD 检测、检索或人工兜底，以及避免把猜测说成事实。

多模态学习计算机视觉大语言模型模型评估

阿里巴巴 / 算法

多模态大模型预训练通常分哪些阶段，ViT 视觉编码器如何参与训练？

这题考多模态大模型预训练的阶段拆解，以及 ViT 视觉编码器如何把图片变成可与语言模型对齐的视觉 token。

同公司岗位有 2 条面经记录

多模态学习计算机视觉模型训练 Transformer

字节跳动 / 算法

Video-LLaMA 如何把视频、音频和语言模块连接成多模态理解模型？

这题考 Video-LLaMA 类视频多模态模型的模块连接方式，回答重点是视频帧编码、时间信息聚合、音频分支、投影对齐和语言模型生成。

多模态学习计算机视觉大语言模型 Transformer

字节跳动 / 算法

BLIP-2 的两阶段训练流程和损失函数如何把视觉编码器接入语言模型？

这题考 BLIP-2 如何用两阶段训练把冻结视觉编码器接入冻结语言模型，回答重点是 Q-Former、图文对齐损失和语言建模损失的职责分工。

多模态学习计算机视觉大语言模型模型训练

字节跳动 / 算法

CLIP 和 BEiT v3 在训练目标、输入建模和图文对齐方式上有什么区别？

这题考 CLIP 和 BEiT v3 的建模范式差异，回答重点是双塔对比学习、统一多模态建模、输入交互方式和适用任务取舍。

多模态学习计算机视觉 Transformer 模型训练

字节跳动 / 算法

CLIP 的图文对比学习流程如何用伪代码表示？

这题考 CLIP 图文对比学习的训练流程，回答重点是 batch 内配对、图像/文本归一化向量、相似度矩阵、温度系数和对称交叉熵损失。

同题还出现在 1 个公司岗位

多模态学习 Embedding 计算机视觉手写题模型训练

字节跳动 / 算法

BEiT v3 相比 BEiT v2 的 embedding 设计有什么变化？

这题考 BEiT v3 相比 BEiT v2 在输入 embedding 和多模态建模上的变化，回答重点是从图像侧表示学习扩展到图像、文本和图文统一输入。

多模态学习计算机视觉 Transformer Embedding

字节跳动 / 算法

ViT 如何把 224x224x3 图像切成 patch 序列，sequence length 如何计算？

这题考 ViT 把图像切成 patch 后如何形成 token 序列，回答重点是 patch 数量、每个 patch 的展平维度、线性投影、位置编码和 CLS token。

同题还出现在 2 个公司岗位

计算机视觉 Transformer Embedding

字节跳动 / 算法

BLIP 如何通过数据清洗和多任务损失提升图文训练数据质量？

这题考 BLIP 里数据 bootstrapping、噪声图文对清洗和多任务预训练目标的关系。回答要聚焦原始 BLIP，不要讲成 BLIP-2 的 Q-Former 两阶段训练。

多模态学习计算机视觉模型训练模型评估

阿里巴巴 / 算法

Qwen 这类图文多模态大模型接入图像理解时，视觉编码、图文对齐和 token 成本有哪些技术难点？

这题考图文多模态大模型接入图像理解的关键工程和算法难点，重点是视觉特征如何进入语言模型、图文语义如何对齐，以及视觉 token 成本如何在效果和延迟之间取舍。

通义千问多模态学习大语言模型计算机视觉 Transformer 模型训练

小米 / 算法

3D 语义分割评测中，mIoU 与 Chamfer Distance 分别衡量什么，什么时候该用哪个？

这题考候选人能否把 3D 语义标签质量和几何形状质量分开评估：mIoU 是分割主指标，Chamfer Distance 更适合几何重建、补全或对齐质量。

计算机视觉模型评估神经网络

小红书 / 算法

BLIP 在图文理解和生成任务中如何组织视觉编码、文本编码和跨模态学习目标？

这题考 BLIP 作为图文预训练框架的整体理解：视觉编码器提取图像 token，文本模块在编码和解码模式间复用，并通过对比、匹配和语言建模目标同时支持理解与生成。

多模态学习计算机视觉大语言模型 Transformer 模型训练

阿里巴巴 / 算法

AIGC 图像生成中 GAN 和 Diffusion Model 的训练目标、生成过程和优劣势有什么区别？

这题考的是能否从训练目标、推理路径、质量多样性、稳定性、可控性和成本把 GAN 与 Diffusion Model 讲成两类生成范式，而不是只背“GAN 快、Diffusion 好”。

计算机视觉模型训练 GAN 算法

阿里巴巴 / 算法

Diffusion 模型常见采样方法 DDIM、DPM++、LCM 和 Turbo 的核心思路与取舍是什么？

这题考的是能否把 Diffusion 采样讲成从多步去噪到数值求解、再到蒸馏加速的质量-速度取舍，而不是把 DDIM、DPM++、LCM、Turbo 只当成模型菜单。

计算机视觉模型训练算法模型评估

阿里巴巴 / 算法

SDXL 相比 Stable Diffusion 主要改进了哪些模块，这些改动分别解决什么生成质量问题？

这题考的是能否把 SDXL 相比 Stable Diffusion 的改进拆到模型容量、文本条件、分辨率训练、尺寸条件、refiner 和数据训练策略，并说明每一项在解决什么生成质量问题。

计算机视觉模型训练多模态学习算法

阿里巴巴 / 算法

Sora 或 Diffusion 3 这类生成模型要实现图像/视频中的精准文字生成，训练和评估上要解决哪些问题？

这题考的是能否把图像/视频中文字生成当作数据、条件控制、分辨率、OCR/字形监督、时序一致性和评估闭环问题来分析，同时避免臆造 Sora 或 Diffusion 3 的闭源内部实现。

计算机视觉多模态学习模型训练模型评估

阿里巴巴 / 算法

做人脸 AIGC 反欺诈时，如何利用 GAN、Stable Diffusion 原理理解伪造样本生成和检测思路？

这题考的是能否把 GAN、Stable Diffusion 的生成机制转成反欺诈检测思路：既要懂伪造样本怎么来，也要能从人脸一致性、活体线索、频域纹理、阈值和对抗更新讲出可落地的检测闭环。

计算机视觉 GAN 神经网络模型评估

阿里巴巴 / 算法

Stable Diffusion 为什么使用 VAE 的 latent space，而不是直接在像素空间做扩散生成？

这题考 Stable Diffusion 的 latent diffusion 设计取舍：VAE 把高维像素压到较低维潜空间，让扩散模型更省算力，同时保留足够语义和空间结构，但会引入重建损失、细节上限和 latent 分布约束。

计算机视觉 Encoder-Decoder 神经网络模型评估大语言模型模型训练

蚂蚁集团 / 算法

3D Gaussian Splatting 重建中的主要误差来源有哪些，如何从相机位姿、点云初始化和优化过程定位？

这题把“高斯重建”明确放在高斯重建 / 3D Gaussian Splatting 类重建语境下，重点考误差归因能力：相机、初始化、可见性、材质、Gaussian 参数优化和评估调试都可能成为重建误差来源。

计算机视觉模型评估问题排查神经网络算法