清华、李飞飞团队等提出强记忆力 E3D-LSTM 网络( 四 )

图中每个颜色的模块都代表了多层相应的网络。图(a)和图(b)是两种 3D 卷积和 LSTM 结合的基线方法,3D 卷积和 LSTM 线性叠加,主要起到了编码(解码器)的作用,并没有和 RNN 有机制上的结合。图(a)中 3D 卷积作为编码器,输入是一段视频帧,图(b)中作为解码器,得到每个单元的最终输出。这两个方法中的绿色模块使用的是时空长短时记忆网络(ST-LSTM)[1],这种 LSTM 独立的维护两个记忆状态 M 和 C,但由于记忆状态 C 的遗忘门过于响应具有短期依赖的特征,因此容易忽略长时依赖信息,因此 E3D-LSTM 在 ST-LSTM 的基础添加了自注意力机制和 3D 卷积操作,在一定程度上解决了这个问题。具体单元结构下一节介绍。

图(c)是 E3D-LSTM 网络的结构,3D 卷积作为编码 - 解码器(蓝色模块),同时和 LSTM 结合(橙色模块)。E3D-LSTM 既可用于分类任务,也可用于预测任务。分类时将所有 LSTM 单元的输出结合,预测时则利用 3D 卷积解码器的输出作为预测值。

E3D-LSTM 单元结构设计

清华、李飞飞团队等提出强记忆力 E3D-LSTM 网络

推荐阅读