LSTM 的输入门、遗忘门和输出门是如何工作的？｜高频面试题解析

60 秒回答模板

LSTM 每个时间步都有隐藏状态 h_t 和细胞状态 c_t。遗忘门 f_t 决定上一时刻细胞状态 c_{t-1} 保留多少；输入门 i_t 决定当前候选记忆写入多少；候选记忆通常由 tanh 生成；新的细胞状态是 f_t * c_{t-1} + i_t * candidate。输出门 o_t 决定细胞状态经过 tanh 后有多少暴露为当前隐藏状态 h_t。三个门都是由当前输入和上一隐藏状态经过 sigmoid 得到的 0 到 1 权重，核心作用是选择性记忆、更新和输出。

考点 遗忘门

难度 真实面经题

回答目标 讲清原理、实现和边界

深入解析

细胞状态是主通道

LSTM 额外维护 c_t 作为长期记忆通道，让信息可以沿时间维度更稳定地传递，减少普通 RNN 反复非线性变换带来的梯度衰减。

遗忘门控制保留

遗忘门 f_t 的值在 0 到 1 之间，决定上一时刻细胞状态每个维度保留多少。接近 0 表示丢弃，接近 1 表示保留。

输入门控制写入

输入门 i_t 决定当前候选信息写入多少，候选记忆由当前输入和上一隐藏状态生成。二者相乘后写入细胞状态，让模型选择性吸收新信息。

输出门控制暴露

输出门 o_t 决定新的细胞状态中哪些信息输出到隐藏状态 h_t。隐藏状态既用于当前预测，也传给下一时间步，因此它是对长期记忆的可见部分。

三个门共同建模长期依赖

遗忘门、输入门和输出门让模型能保留长期信号、过滤无关输入、按需输出状态，因此比普通 RNN 更适合长序列建模，也更能处理延迟反馈。

易错点

不要只背三个门名称，要说明它们分别控制保留、写入和输出。
不要把细胞状态 c_t 和隐藏状态 h_t 混为一谈。
不要说 LSTM 完全解决长依赖，它只是缓解普通 RNN 的训练困难。

面试官追问

LSTM 为什么能缓解梯度消失？

细胞状态提供较直接的加性更新通道，门控控制信息流，梯度更容易沿时间传播。

GRU 和 LSTM 有什么区别？

GRU 合并了部分门控和状态，结构更简单、参数更少；LSTM 有独立细胞状态和输入、遗忘、输出门。

遗忘门全接近 1 会怎样？

模型会大量保留历史信息，长期依赖更强，但也可能保留无关噪声，影响当前预测。