Transformer 相比之前的模型为什么有这么大的提升？｜小米算法面经解析

60 秒回答模板

相比 RNN，Transformer 不需要按时间步串行处理，训练可以并行，长距离依赖也不用经过很多递归状态传递；相比传统 CNN，它能更灵活地为任意两个 token 建立动态关系。Self-Attention 让每个位置直接关注全局上下文，多头机制学习不同关系，残差和 LayerNorm 支持深层堆叠。再加上大规模预训练和迁移学习，Transformer 在 NLP、多模态和生成任务上都有明显提升。

考点 全局依赖

难度 真实面经题

回答目标 讲清方法、取舍和追问

深入解析

长距离依赖更直接

RNN 需要沿时间步传递状态，长距离信息容易衰减；Transformer 的 self-attention 可以让任意两个位置直接交互，路径更短，更适合捕捉远距离语义关系。

训练并行性更强

RNN 的序列递归让训练难以完全并行，而 Transformer 对整段序列做矩阵计算，更适合 GPU/TPU 并行，能吃下更大的数据和模型规模。

表示能力更灵活

多头注意力能在不同子空间学习语法、指代、局部模式和全局语义等关系。相比固定卷积窗口，它可以根据输入内容动态决定关注范围。

深层结构更可扩展

残差连接、LayerNorm、FFN 和注意力模块组合成稳定的可堆叠结构。规模扩大后，模型容量、数据规模和预训练目标共同带来更强迁移能力。

也要说清代价

Transformer 不是没有缺点，标准 attention 的复杂度和序列长度平方相关，长文本成本高；它还依赖大量数据和算力，低资源任务未必天然优于更简单模型。

易错点

不要只说 Transformer 更先进，要说明结构带来的具体机制优势。
不要忽略标准 attention 的长序列成本。
不要把提升全部归因于模型结构，大规模预训练和数据规模也很关键。

面试官追问

Transformer 相比 RNN 最大优势是什么？

并行训练和长距离依赖建模是核心优势，RNN 的串行递归会限制训练效率和远距离信息传递。

Transformer 有什么劣势？

标准 attention 对序列长度是平方复杂度，长上下文成本高，同时对数据、算力和正则化更敏感。

多头注意力为什么有效？

它让不同头在不同表示子空间学习不同关系，最后融合成更丰富的上下文表示。