真实面经题目 · 原创解析
LSTM 的输入门、遗忘门和输出门是如何工作的?
LSTM 用遗忘门、输入门和输出门控制细胞状态的保留、写入和暴露,从而缓解普通 RNN 的长期依赖和梯度衰减问题。
LSTM 每个时间步都有隐藏状态 h_t 和细胞状态 c_t。遗忘门 f_t 决定上一时刻细胞状态 c_{t-1} 保留多少;输入门 i_t 决定当前候选记忆写入多少;候选记忆通常由 tanh 生成;新的细胞状态是 f_t * c_{t-1} + i_t * candidate。输出门 o_t 决定细胞状态经过 tanh 后有多少暴露为当前隐藏状态 h_t。三个门都是由当前输入和上一隐藏状态经过 sigmoid 得到的 0 到 1 权重,核心作用是选择性记忆、更新和输出。
LSTM 额外维护 c_t 作为长期记忆通道,让信息可以沿时间维度更稳定地传递,减少普通 RNN 反复非线性变换带来的梯度衰减。
遗忘门 f_t 的值在 0 到 1 之间,决定上一时刻细胞状态每个维度保留多少。接近 0 表示丢弃,接近 1 表示保留。
输入门 i_t 决定当前候选信息写入多少,候选记忆由当前输入和上一隐藏状态生成。二者相乘后写入细胞状态,让模型选择性吸收新信息。
输出门 o_t 决定新的细胞状态中哪些信息输出到隐藏状态 h_t。隐藏状态既用于当前预测,也传给下一时间步,因此它是对长期记忆的可见部分。
遗忘门、输入门和输出门让模型能保留长期信号、过滤无关输入、按需输出状态,因此比普通 RNN 更适合长序列建模,也更能处理延迟反馈。
细胞状态提供较直接的加性更新通道,门控控制信息流,梯度更容易沿时间传播。
GRU 合并了部分门控和状态,结构更简单、参数更少;LSTM 有独立细胞状态和输入、遗忘、输出门。
模型会大量保留历史信息,长期依赖更强,但也可能保留无关噪声,影响当前预测。