清华、李飞飞团队等提出强记忆力 E3D-LSTM 网络( 四 )_图1

图中每个颜色的模块都代表了多层相应的网络。图（a）和图（b）是两种 3D 卷积和 LSTM 结合的基线方法，3D 卷积和 LSTM 线性叠加，主要起到了编码（解码器）的作用，并没有和 RNN 有机制上的结合。图（a）中 3D 卷积作为编码器，输入是一段视频帧，图（b）中作为解码器，得到每个单元的最终输出。这两个方法中的绿色模块使用的是时空长短时记忆网络（ST-LSTM）[1]，这种 LSTM 独立的维护两个记忆状态 M 和 C，但由于记忆状态 C 的遗忘门过于响应具有短期依赖的特征，因此容易忽略长时依赖信息，因此 E3D-LSTM 在 ST-LSTM 的基础添加了自注意力机制和 3D 卷积操作，在一定程度上解决了这个问题。具体单元结构下一节介绍。

图（c）是 E3D-LSTM 网络的结构，3D 卷积作为编码 - 解码器（蓝色模块），同时和 LSTM 结合（橙色模块）。E3D-LSTM 既可用于分类任务，也可用于预测任务。分类时将所有 LSTM 单元的输出结合，预测时则利用 3D 卷积解码器的输出作为预测值。

E3D-LSTM 单元结构设计