清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述( 三 )


[22
, 因此PWLNN的发展也在一定程度上促进了深度学习的发展 。
此外 , 在GPU/TPU等硬件和各类成熟的深度学习软件平台的支撑下 , 对计算能力具有较高需求的深层的PWLNN能够应用于更大规模的问题 , 使其在当今的大数据时代脱颖而出 。
分片线性特性
与其他非线性函数不同 , 分片线性函数具有一个重要性质 , 即其
对定义域划分和子区域局部线性表达的可解释性 。
除了强大的逼近能力 , 目前分片线性还被广泛的应用于深度学习中的各类理论分析中
[24-30
, 例如通过利用线性子区域边界特性验证对于给定输出情况下网络输出预测的鲁棒性验证[28-29
, 以及利用估计线性子区域片数衡量网络灵活性[24
等 。
深层PWLNN的分片线性特性导致的复杂的子区域划分及模型表达式会阻碍分片线性函数的可解释能力和带来难易预测的行为特征 。
浅层的PWLNN的建模及学习算法通常会考虑定义域中各子区域的局部线性特征 , 并以实现足够稀疏的模型结构为参数学习目标 。
特别地 , 具有不同形式的浅层PWLNN对应了不同的参数学习算法 , 这些算法充分考虑了各模型特有的几何特征 , 从而实现较好的学习效果 。
例如 , 对应于链接超平面模型的找链接算法
[13
, 对应于自适应链接超平面模型的基于定义域划分的树形结构算法[9
等 。
然而 ,
深层的PWLNN通常忽略了模型的几何特征 , 而通过为各个神经节点配置形式简单的分片线性映射函数 , 并结合多层结构带来的非线性特性逐层叠加效应 , 以实现极其复杂的子区域划分和局部线性表达 。
尽管在各领域问题的求解过程中的数值结果证明了深层PWLNN的优越性能 , 但模型参数学习算法与模型结构相独立 , 一般采用深度学习的常用策略 , 即随机梯度下降算法 , 而
忽略了分片线性特性对学习过程的影响 。
因此 , 在这一点上 ,
未来仍有很多亟待研究的问题 。
例如 , 如何为具有不同网络结构和神经元映射函数的PWLNN构建特有的学习算法 , 在
保持参数稀疏性和模型可解释性的同时 , 提升学习过程的效率和效果;
对于给定数据集 , 是否能够以及如何找到一个具有
最简单结构和模型可解释性的深层PWLNN;
这样的PWLNN应该通过
显式的构建一个浅层PWLNN或隐式的的正则化一个深层PWLNN得以实现;
如何建立
PWLNN与其他强调局部特征学习的深度神经网络之间的区别和关系等 。
综上 , 此综述对PWLNN方法论进行了的系统性回顾 , 从浅层网络和深层网络两个方面对表示模型、学习算法、基础理论及实际应用等方面内容进行了梳理 , 展现了浅层的PWLNN向当今广泛使用的深层的PWLNN的发展历程 , 全面剖析了二者之间的关联关系 , 并对现存问题和未来研究方向进行了深入讨论 。
不同背景的读者可以很容易地了解到从PWLNN的开创性工作到当今深度学习中最先进的PWLNN的发展路线 。 同时 , 通过重新思考早期的经典工作 , 可将其与最新研究工作相互结合 , 以促进对深层PWLNN的更深入研究 。
参考资料:
[1
Tao Q. Li L. Huang X. et al. Piecewise linear neural networks and deep learning. Nat Rev Methods Primers 2 42 (2022).
[2
Yu J. Wang S. & Li L. Incremental design of simplex basis function model for dynamic system identification. IEEE Transactions on Neural Networks Learn. Syst. 29 4758–4768 (2017).
[3
Chua L. O. & Deng A. Canonical piecewise-linear representation. IEEE Trans. Circuits Syst. 35 101–111 (1988). This paper presents a systematic analysis of Canonical Piecewise Linear Representations including some crucial properties of PWLNNs.
[4
Breiman L. Hinging hyperplanes for regression classification and function approximation. IEEE Trans. Inf. Theory 39 999–1013 (1993). This paper introduces the hinging hyperplanes representation model and its hinge-finding learning algorithm. The connection with ReLU in PWL-DNNs can be referred to.
[5
Julián P. A High Level Canonical Piecewise Linear Representation: Theory and Applications. Ph.D. thesis Universidad Nacional del Sur (Argentina) (1999). This dissertation gives a very good view on the PWL functions and their applications mainly in circuit systems developed before the 2000s.
[6
Tarela J. & Martínez M. Region configurations for realizability of lattice piecewise-linear models. Math. Computer Model. 30 17–27 (1999). This work presents formal proofs on the universal representation ability of the lattice representation and summarizes different locally linear subregion realizations.

推荐阅读