60 秒回答模板

LSTM 每个时间步都有隐藏状态 h_t 和细胞状态 c_t。遗忘门 f_t 决定上一时刻细胞状态 c_{t-1} 保留多少;输入门 i_t 决定当前候选记忆写入多少;候选记忆通常由 tanh 生成;新的细胞状态是 f_t * c_{t-1} + i_t * candidate。输出门 o_t 决定细胞状态经过 tanh 后有多少暴露为当前隐藏状态 h_t。三个门都是由当前输入和上一隐藏状态经过 sigmoid 得到的 0 到 1 权重,核心作用是选择性记忆、更新和输出。

考点 遗忘门
难度 真实面经题
回答目标 讲清原理、实现和边界

深入解析

01

细胞状态是主通道

LSTM 额外维护 c_t 作为长期记忆通道,让信息可以沿时间维度更稳定地传递,减少普通 RNN 反复非线性变换带来的梯度衰减。

02

遗忘门控制保留

遗忘门 f_t 的值在 0 到 1 之间,决定上一时刻细胞状态每个维度保留多少。接近 0 表示丢弃,接近 1 表示保留。

03

输入门控制写入

输入门 i_t 决定当前候选信息写入多少,候选记忆由当前输入和上一隐藏状态生成。二者相乘后写入细胞状态,让模型选择性吸收新信息。

04

输出门控制暴露

输出门 o_t 决定新的细胞状态中哪些信息输出到隐藏状态 h_t。隐藏状态既用于当前预测,也传给下一时间步,因此它是对长期记忆的可见部分。

05

三个门共同建模长期依赖

遗忘门、输入门和输出门让模型能保留长期信号、过滤无关输入、按需输出状态,因此比普通 RNN 更适合长序列建模,也更能处理延迟反馈。

易错点

  • 不要只背三个门名称,要说明它们分别控制保留、写入和输出。
  • 不要把细胞状态 c_t 和隐藏状态 h_t 混为一谈。
  • 不要说 LSTM 完全解决长依赖,它只是缓解普通 RNN 的训练困难。

面试官追问

LSTM 为什么能缓解梯度消失?

细胞状态提供较直接的加性更新通道,门控控制信息流,梯度更容易沿时间传播。

GRU 和 LSTM 有什么区别?

GRU 合并了部分门控和状态,结构更简单、参数更少;LSTM 有独立细胞状态和输入、遗忘、输出门。

遗忘门全接近 1 会怎样?

模型会大量保留历史信息,长期依赖更强,但也可能保留无关噪声,影响当前预测。