60 秒回答模板

相比 RNN,Transformer 不需要按时间步串行处理,训练可以并行,长距离依赖也不用经过很多递归状态传递;相比传统 CNN,它能更灵活地为任意两个 token 建立动态关系。Self-Attention 让每个位置直接关注全局上下文,多头机制学习不同关系,残差和 LayerNorm 支持深层堆叠。再加上大规模预训练和迁移学习,Transformer 在 NLP、多模态和生成任务上都有明显提升。

考点 全局依赖
难度 真实面经题
回答目标 讲清方法、取舍和追问

深入解析

01

长距离依赖更直接

RNN 需要沿时间步传递状态,长距离信息容易衰减;Transformer 的 self-attention 可以让任意两个位置直接交互,路径更短,更适合捕捉远距离语义关系。

02

训练并行性更强

RNN 的序列递归让训练难以完全并行,而 Transformer 对整段序列做矩阵计算,更适合 GPU/TPU 并行,能吃下更大的数据和模型规模。

03

表示能力更灵活

多头注意力能在不同子空间学习语法、指代、局部模式和全局语义等关系。相比固定卷积窗口,它可以根据输入内容动态决定关注范围。

04

深层结构更可扩展

残差连接、LayerNorm、FFN 和注意力模块组合成稳定的可堆叠结构。规模扩大后,模型容量、数据规模和预训练目标共同带来更强迁移能力。

05

也要说清代价

Transformer 不是没有缺点,标准 attention 的复杂度和序列长度平方相关,长文本成本高;它还依赖大量数据和算力,低资源任务未必天然优于更简单模型。

易错点

  • 不要只说 Transformer 更先进,要说明结构带来的具体机制优势。
  • 不要忽略标准 attention 的长序列成本。
  • 不要把提升全部归因于模型结构,大规模预训练和数据规模也很关键。

面试官追问

Transformer 相比 RNN 最大优势是什么?

并行训练和长距离依赖建模是核心优势,RNN 的串行递归会限制训练效率和远距离信息传递。

Transformer 有什么劣势?

标准 attention 对序列长度是平方复杂度,长上下文成本高,同时对数据、算力和正则化更敏感。

多头注意力为什么有效?

它让不同头在不同表示子空间学习不同关系,最后融合成更丰富的上下文表示。