真实面经题目 · 原创解析
Transformer 相比之前的模型为什么有这么大的提升?
Transformer 的提升主要来自 self-attention 对长距离依赖的直接建模、更强并行训练能力、多头表示学习,以及可扩展到大数据和大模型规模的结构。
真实面经题目 · 原创解析
Transformer 的提升主要来自 self-attention 对长距离依赖的直接建模、更强并行训练能力、多头表示学习,以及可扩展到大数据和大模型规模的结构。
相比 RNN,Transformer 不需要按时间步串行处理,训练可以并行,长距离依赖也不用经过很多递归状态传递;相比传统 CNN,它能更灵活地为任意两个 token 建立动态关系。Self-Attention 让每个位置直接关注全局上下文,多头机制学习不同关系,残差和 LayerNorm 支持深层堆叠。再加上大规模预训练和迁移学习,Transformer 在 NLP、多模态和生成任务上都有明显提升。
RNN 需要沿时间步传递状态,长距离信息容易衰减;Transformer 的 self-attention 可以让任意两个位置直接交互,路径更短,更适合捕捉远距离语义关系。
RNN 的序列递归让训练难以完全并行,而 Transformer 对整段序列做矩阵计算,更适合 GPU/TPU 并行,能吃下更大的数据和模型规模。
多头注意力能在不同子空间学习语法、指代、局部模式和全局语义等关系。相比固定卷积窗口,它可以根据输入内容动态决定关注范围。
残差连接、LayerNorm、FFN 和注意力模块组合成稳定的可堆叠结构。规模扩大后,模型容量、数据规模和预训练目标共同带来更强迁移能力。
Transformer 不是没有缺点,标准 attention 的复杂度和序列长度平方相关,长文本成本高;它还依赖大量数据和算力,低资源任务未必天然优于更简单模型。
并行训练和长距离依赖建模是核心优势,RNN 的串行递归会限制训练效率和远距离信息传递。
标准 attention 对序列长度是平方复杂度,长上下文成本高,同时对数据、算力和正则化更敏感。
它让不同头在不同表示子空间学习不同关系,最后融合成更丰富的上下文表示。