计算机视觉模型与 ChatGPT 这类大模型的网络有什么区别？｜百度后端开发面经解析

60 秒回答模板

CV 模型通常处理图像或视频，早期主干以 CNN 为主，现在也大量使用 ViT，把图像切成 patch 后做表征学习；ChatGPT 类大模型处理 token 序列，核心是 Transformer Decoder 的自回归语言建模。CV 更强调空间局部结构、尺度变化、检测分割等任务，LLM 更强调长上下文、语义推理和逐 token 生成。二者都可以用 Transformer，但输入编码、位置建模、训练数据、损失函数和推理方式不同。多模态模型会把视觉编码器和语言模型通过投影或对齐层连接起来。

考点 输入模态

难度 真实面经题

回答目标 讲清方法、边界和追问

深入解析

输入形态不同

CV 输入是像素、图像 patch 或视频帧，天然带二维空间结构；LLM 输入是离散 token 序列，重点是词、子词和上下文依赖。

主干结构演进不同

传统 CV 常用 CNN 提取局部纹理和多尺度特征，ViT 则把图像 patch 当作序列。ChatGPT 类模型主要是 Decoder-only Transformer，按因果注意力建模文本序列。

训练目标不同

CV 任务可能是分类、检测、分割、对比学习或掩码重建；LLM 的核心预训练目标通常是预测下一个 token，再通过指令微调和偏好对齐适配对话能力。

推理输出不同

CV 模型多输出类别、框、mask、embedding 或特征图；ChatGPT 类模型逐 token 生成自然语言，推理受上下文窗口、解码策略和 KV cache 影响。

多模态会连接两者

视觉语言模型常用视觉编码器提取图像表示，再通过投影层、跨注意力或 adapter 对齐到语言模型空间，让 LLM 能理解视觉内容。

易错点

不要简单说一个是 CNN 一个是 Transformer，现在 CV 也大量使用 Transformer。
不要忽略训练目标，结构相似不代表学习任务相同。
不要把多模态模型理解成直接拼接图片和文本，通常需要编码和对齐模块。

面试官追问

ViT 和 CNN 的区别是什么？

CNN 通过卷积捕获局部模式并具备归纳偏置，ViT 把图像切成 patch 后用自注意力建模全局关系，更依赖数据规模。

为什么 ChatGPT 通常用 Decoder-only 架构？

Decoder-only 适合自回归生成，训练和推理目标一致，便于逐 token 续写和对话生成。

视觉模型接入 LLM 时难点是什么？

难点在视觉特征压缩、模态对齐、位置和细粒度信息保留，以及推理成本控制。