PredNet|说到深度学习架构中的预测编码模型,还得看PredNet( 六 )

  • 其次 , 使用 DL 框架的模型可以扩展到具有超过十万个参数的非常大的体系结构 。 这不是使用传统的预测编码能够实现的 。
  • 第三 , 深度学习体系结构允许使用大型学习模块(如 LSTM) , 可以处理更宽松的统计假设 , 从而在更一般的情况下运行 。
  • PredNet 属于第二类预测编码模型(如上文所述:像在泰勒级数展开中一样学习高阶误差的层次结构) 。 PredNet 的架构见图 4 。 PredNet 由一系列重复堆叠的模块组成 , 这些模块对输入进行局部预测 , 然后从实际输入中减去该预测并传递到下一层 。 具体的 , 每个模块由四个基本部分组成:输入卷积层(A_l)、递归表示层(R_l)、预测层((a_l)^)和误差表示层(E_l) 。 R_l 是一个循环卷积网络 , 它生成 A_l 在下一帧上的预测(a_l)^ 。 该网络获取 A_l 和(A_l)^ 之间的差值 , 并输出误差表示形式 E_l , 包括单独的校正正误差总体和负误差总体 。 E_l 通过卷积层向前传递 , 成为下一层(A_l+1)的输入 。 R_l 接收 E_l 的副本以及来自下一级网络(R_l+1)的表示层的自顶向下的输入 。 网络的组织是这样的 , 在操作的第一个时间步骤中 , 网络的“右侧”(A_l’s 和 E_l’s)相当于标准的深度卷积网络 。 网络的 "左侧"(R_l’s)相当于一个生成性去卷积网络 , 每个阶段都有局部递归 。 与上一节介绍的经典预测编码模型不同 , PredNet 构建为一个深度学习框架 , 它使用梯度下降法进行端到端的训练 , 同时隐式嵌入了一个损失函数作为误差神经元的触发频率 。

    PredNet|说到深度学习架构中的预测编码模型,还得看PredNet
    文章图片

    图 4. PredNet 架构 。 左图:两层内信息流的图示 。 每一层由表示神经元(R_l)组成 , 表示神经元(R_l)在每个时间步((a_l)^)输出特定于层的预测 , 并与目标(A_l)进行比较以产生误差项(E_l) , 然后误差项(E_l)在网络中横向和垂直传播
    PredNet 架构适用于各种模拟数据 , 文献 [3] 具体关注图像序列(视频)数据 。 给定图像序列 x_t , 下层的目标设置为实际序列本身 , 上层的目标则是通过对下层的误差单元进行卷积 , 然后通过 ReLU 和 Max pooling 处理得到的 , 使用 LSTM 作为表示神经元 。 (R_l)^t 利用 (R_l)^(t-1)、(E_l)^(t-1) 更新 , 以得到(R_l+1)^t 。 (A_l)^t^ 则通过(R_l)^t 堆的卷积附加 ReLU 处理得到 。 对于下层 , (A_l)^t^ 通过一个设置为最大像素值饱和非线性集:

    PredNet|说到深度学习架构中的预测编码模型,还得看PredNet
    文章图片

    最后 , (E_l)^t 计算为(A_l)^t^ 和(A_l)^t 的差 , 然后被分为 ReLU 激活的正预测误差和负预测误差 , 这些误差沿特征维度串联 。 完整的更新公式如下:

    推荐阅读