真实面经题目 · 原创解析
计算机视觉模型与 ChatGPT 这类大模型的网络有什么区别?
计算机视觉模型和 ChatGPT 类大模型的差异主要在输入形态、主干结构、训练目标、上下文建模方式和推理生成范式。
真实面经题目 · 原创解析
计算机视觉模型和 ChatGPT 类大模型的差异主要在输入形态、主干结构、训练目标、上下文建模方式和推理生成范式。
CV 模型通常处理图像或视频,早期主干以 CNN 为主,现在也大量使用 ViT,把图像切成 patch 后做表征学习;ChatGPT 类大模型处理 token 序列,核心是 Transformer Decoder 的自回归语言建模。CV 更强调空间局部结构、尺度变化、检测分割等任务,LLM 更强调长上下文、语义推理和逐 token 生成。二者都可以用 Transformer,但输入编码、位置建模、训练数据、损失函数和推理方式不同。多模态模型会把视觉编码器和语言模型通过投影或对齐层连接起来。
CV 输入是像素、图像 patch 或视频帧,天然带二维空间结构;LLM 输入是离散 token 序列,重点是词、子词和上下文依赖。
传统 CV 常用 CNN 提取局部纹理和多尺度特征,ViT 则把图像 patch 当作序列。ChatGPT 类模型主要是 Decoder-only Transformer,按因果注意力建模文本序列。
CV 任务可能是分类、检测、分割、对比学习或掩码重建;LLM 的核心预训练目标通常是预测下一个 token,再通过指令微调和偏好对齐适配对话能力。
CV 模型多输出类别、框、mask、embedding 或特征图;ChatGPT 类模型逐 token 生成自然语言,推理受上下文窗口、解码策略和 KV cache 影响。
视觉语言模型常用视觉编码器提取图像表示,再通过投影层、跨注意力或 adapter 对齐到语言模型空间,让 LLM 能理解视觉内容。
CNN 通过卷积捕获局部模式并具备归纳偏置,ViT 把图像切成 patch 后用自注意力建模全局关系,更依赖数据规模。
Decoder-only 适合自回归生成,训练和推理目标一致,便于逐 token 续写和对话生成。
难点在视觉特征压缩、模态对齐、位置和细粒度信息保留,以及推理成本控制。