60 秒回答模板

CV 模型通常处理图像或视频,早期主干以 CNN 为主,现在也大量使用 ViT,把图像切成 patch 后做表征学习;ChatGPT 类大模型处理 token 序列,核心是 Transformer Decoder 的自回归语言建模。CV 更强调空间局部结构、尺度变化、检测分割等任务,LLM 更强调长上下文、语义推理和逐 token 生成。二者都可以用 Transformer,但输入编码、位置建模、训练数据、损失函数和推理方式不同。多模态模型会把视觉编码器和语言模型通过投影或对齐层连接起来。

考点 输入模态
难度 真实面经题
回答目标 讲清方法、边界和追问

深入解析

01

输入形态不同

CV 输入是像素、图像 patch 或视频帧,天然带二维空间结构;LLM 输入是离散 token 序列,重点是词、子词和上下文依赖。

02

主干结构演进不同

传统 CV 常用 CNN 提取局部纹理和多尺度特征,ViT 则把图像 patch 当作序列。ChatGPT 类模型主要是 Decoder-only Transformer,按因果注意力建模文本序列。

03

训练目标不同

CV 任务可能是分类、检测、分割、对比学习或掩码重建;LLM 的核心预训练目标通常是预测下一个 token,再通过指令微调和偏好对齐适配对话能力。

04

推理输出不同

CV 模型多输出类别、框、mask、embedding 或特征图;ChatGPT 类模型逐 token 生成自然语言,推理受上下文窗口、解码策略和 KV cache 影响。

05

多模态会连接两者

视觉语言模型常用视觉编码器提取图像表示,再通过投影层、跨注意力或 adapter 对齐到语言模型空间,让 LLM 能理解视觉内容。

易错点

  • 不要简单说一个是 CNN 一个是 Transformer,现在 CV 也大量使用 Transformer。
  • 不要忽略训练目标,结构相似不代表学习任务相同。
  • 不要把多模态模型理解成直接拼接图片和文本,通常需要编码和对齐模块。

面试官追问

ViT 和 CNN 的区别是什么?

CNN 通过卷积捕获局部模式并具备归纳偏置,ViT 把图像切成 patch 后用自注意力建模全局关系,更依赖数据规模。

为什么 ChatGPT 通常用 Decoder-only 架构?

Decoder-only 适合自回归生成,训练和推理目标一致,便于逐 token 续写和对话生成。

视觉模型接入 LLM 时难点是什么?

难点在视觉特征压缩、模态对齐、位置和细粒度信息保留,以及推理成本控制。