清华、李飞飞团队等提出强记忆力 E3D-LSTM 网络( 三 )_图1

得益于 3D 卷积和 RNN 在各自领域的成功，如何进一步将二者结合起来使用也成为了研究热点，常见的简单方法是将二者串联堆叠或者并联结合（在图卷积网络出现之前，动作识别领域的最优方法就是将 CNN 和 RNN 并联），但测试发现这么做并不能带来太大的提升，这是因为二者的工作机制差距太大，简单的结合并不能很好的实现优势互补。本文提出用 3D 卷积代替原始 LSTM 中的门更新操作，使 LSTM 不仅能在时间层面，也能在空间层面上进行短期依赖的表象特征和运动特征的抽取，从而在更深的机制层面实现两种网络的结合。此外，在 LSTM 中引入自注意力（self-attention）机制，进一步强化了 LSTM 的长时记忆能力，使其对长距离信息作用具有更好的感知力。作者将这种网络称为Eidetic 3D LSTM（E3D-LSTM），Eidetic 意思是具有逼真记忆，强调网络的强记忆能力。

E3D-LSTM 网络结构