PredNet|说到深度学习架构中的预测编码模型,还得看PredNet( 二 )


1、 预测编码的基本知识
首先 , 我们参考来自华盛顿大学的研究人员发表的一篇预测编码综述性文章 , 从神经学的角度对预测编码进行介绍 [2] 。 预测编码是一个试图解释认知现象和理解神经系统的统一框架 , 它提出了神经系统中如何减少冗余和进行高效编码:通过只传输传入的感觉信号中未预测的部分 , 预测编码允许神经系统减少冗余并充分利用神经元的有限动态范围 。 预测编码为一系列神经反应和大脑组织的许多方面提供了功能性解释 。 自然界中视网膜和外侧膝状核(lateral geniculate nucleus , LGN)接受区(receptive field) 的侧向和时间拮抗(temporal antagonism)是自然图像预测编码的结果 。 在预测编码模型中 , 视网膜 / LGN 中的神经回路主动地从空间中的附近值或时间中的先验输入值的线性加权总和来预测局部强度的数值 。 这些电路中的细胞传达的不是原始图像强度 , 而是预测值和实际强度之间的差异 , 这种处理方式减少了输出冗余 。 而在高级视觉系统中 , 预测编码为定向感受区和背景效应以及大脑皮层的分层互连组织提供了解释 。 从不同脑区获得的各种神经生理学和心理物理学数据也与预测编码的猜想一致 。
我们先了解一下不同层级的神经系统的响应特点:大脑中初级视觉皮层(V1)的神经元对特定方向的条形和边缘作出反应 , 而 V2 和 V4 区的神经元对更复杂的形状和轮廓特征作出反应 。 内侧颞上区(medial superior temporal , MST)的神经元对视觉运动有反应 。 这些反应的选择性可以从自然输入的分层预测编码的角度来理解 。 例如 , 由于视觉系统是分层组织的 , 皮层区域之间有相互的联系 。 根据 Rao 和 Ballard 提出的分层神经网络的架构(RB 架构) , 来自高阶视觉皮层区域的自上而下的反馈连接承载了对低阶神经活动的预测 , 而自下而上的连接则传达了预测的剩余误差 。 在对取自自然场景的图像斑块进行模型网络训练后 , 他们发现模型神经元发展出与 V1 相似的感受野特性 , 包括定向感受野、末端停顿和其他背景效应 。
预测编码的一个早期应用是创建视网膜的模型 , 这些模型具有较低的信息传输要求 , 因为视神经是向大脑传输视觉信息的瓶颈 。 连续的视觉输入具有高冗余度 。 如果视网膜上的细胞从空间上和时间上计算出传入光线的移动平均值 , 就可以得到对当前输入的预测 。 通过将实际输入与预测进行比较 , 视网膜可以将预测误差发送到后来的处理区域 , 从而减少传输带宽 。 如果脊椎动物的视网膜从头开始创建当前输入图像的表征 , 信息传输的要求将取决于建立当前环境的完整表征所需的带宽 。 然而 , 大脑通常可以利用其对过去环境的现有表征以及关于环境如何变化的约束条件 , 对环境的当前状态做出非常好的预测 。 与从头开始建立当前环境状态的表征相比 , 预测误差只需要较少的带宽来表示 。 如果大脑已经有了一个相当准确的默认预测 , 那么用预测误差来更新默认预测就可以创造一个最新的、信息传输需求较低的表征 。 此外 , 预测误差可以提供很好的信息来指导学习 , 以改善表征并减少未来的预测误差 。

推荐阅读