清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述( 二 )


PWLNN表示模型及其学习方法
如上图3所示 , PWLNN可分为两大类 , 即
【清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述】浅层的PWLNN(如图3中下半部分左右两图所示)和深层的PWLNN(如图2中上半部分图) 。
浅层的PWLNN主要分为两大类 , 即
基函数组合模型及格模型 。
其中前者通过对具有不同结构、参数和特性的基函数进行组合 , 如图4(a)(b)所示 , 实现能够满足不同场景的具有不同逼近能力、表示能力、参数及结构的辨识难易程度的PWLNN
后者则通过显式枚举可行域的各个子区域所对应的线性表达 , 并利用min-max(或max-min)的嵌套形式 , 实现PWLNN的紧凑表示 , 如图4(c)所示 。
格模型中线性子区域的显式表达特性在一些特定应用场景下尤为重要 , 例如模型预测控制
[2531


图4. (a) 二维链接超平面模型基函数示意图; (b) 二维单纯形模型基函数示意图;(c) 一维格模型示例图 (含5个子区域线性表达式)
对比而言 , 由于网络深度的限制 , 浅层的PWLNN通常通过筛选更为有效的神经元 , 而逐渐增加网络宽度的方式 , 提升模型灵活性 , 然而在反复搜索有效神经元的过程往往会牺牲算法效率 , 同时缺少对全局信息的考虑 。
与浅层PWLNN更加侧重于神经元连接方式的特点不同 , 深层的PWLNN更加侧重于在深度神经网络中引入形式简单的分片线性函数作为激活单元 , 从而是深层PWLNN整体表现为逐层嵌套的分片线性映射函数 。
深层的PWLNN更偏好于增加网络深度
[23
, 这种方式的优势在于能够更加高效而灵活地实现分片线性子区域的划分 , 并使模型具有更好的灵活性 , 例如图5中的典型全连接深层PWLNN模型结构示意 。

图5. 一般PWLNN模型结构示意图
通过逐层的分片线性函数映射 , 定义域会被划分为更多的线性子区域 , 如图6所示 。
图6中(b)、(c)、(d)为(a)所示网络中第一层隐含层、第二隐含层、第三隐含层中神经元输出对应的定义域划分 , 可见随着网络深度的嵌套网络定义域被划分成更多的子区域 , 即神经元输出由更多不同片线性子函数构成 , 因此可以得到更为灵活的PWLNN 。
又例如图7中示例所示 , 随着网络层数的加深 , 定义域可被灵活的划分为众多具有线性特性的子区域 , 从而可以更为精确的地对数据进行拟合 , 实现强大的逼近能力 。

图6. 二维简单PWLNN(ReLU为激活函数)网络结构及其定义域划分示意图[32


图7. 简单的深层PWLNN定义域划分示意图[33

对于更为一般的情况 , 与浅层PWLNN模型类似 , 深层PWLNN网络中神经元的连接方式也可多样化 , 例如全连接网络和卷积神经网络CNN , 以及逐层连接和残差网络ResNet 。
进一步的 , PWLNN中神经元间的非线性传递函数也可以为一般形式的连续分片线性函数 , 不仅限于一般的一维函数 , 例如ReLU及Leaky ReLU
[34
, 也可以为多维的Maxout[26
等 。
图8示意了具有一般形式的PWLNN网络结构 , 适用于上述所有浅层和深层PWLNN模型 。

图8. 一般PWLNN模型结构示意图
学习算法
浅层的PWLNN的参数学习算法主要是增量式地逐步添加神经元和/或更新参数 , 其目标是学习到一个更宽的网络 , 以实现更好的学习效果 。
不同的浅层PWLNN模型通常有其特有的学习算法 , 充分考虑模型特有的几何特性及实际应用需求 , 例如图4(a)中对应的链接超平面模型对应找链接算法
[13
, 及图4(b)中单纯形模型对应的基于单纯形找片的辨识算[2
等 。
以图9为例 , 通过逐步添加左侧所示的辨识得到的三个基函数 , 可得到右侧对应的PWLNN , 实现对示例中正弦函数的逼近 。

图9. 基于增量式学习的单纯形找片算法示意图[2

浅层的PWLNN广泛应用于函数逼近、系统辨识及预测控制等领域中的问题 , 但在处理高维问题、大规模数据及复杂任务时 , 这些模型的灵活性及算法效率仍具有局限性
[5

相比较而言 , 深层的PWLNN的学习则延续了深度学习中一般深度网络的优化算法 , 即其通常具有预先确定的网络结构 , 并在基于梯度反向传播策略和随机梯度下降算法的学习框架下进 , 优化网络参数 , 这样实现了对优化过程的简化并提高了学习效率 , 从而使其可以求解复杂问题
[16

值得一提的是 , 分片线性激活函数(如ReLU)的引入 , 能有效抑制梯度消失等影响深度学习应用效果的不利特性

推荐阅读