世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”( 八 )

这项工作发表十多年后,一种用于更有限的前馈神经网络的类似方法出现了,称为深度置信网络 (DBN)。该论文的证明基本上就是我在 1990 年代早期为我的 RNN 堆栈使用的证明:每一个更高的层都试图减少下面层中数据表示的描述长度 (或负对数概率)。

在上述基于无监督预训练的深度学习网络之后不久,深度学习问题也通过我们的纯监督 LSTM 得以克服。

当然,前馈神经网络的深度学习开始得更早,早在 1965 年,Ivakhnenko 和 Lapa 就发表了第一个通用的、用于任意层数的深度多层感知器的学习算法。但是,与 Ivakhnenko 在 70 年代和 80 年代提出的深度 FNN 网络不同,我们的深度 RNN 具有通用的并行训练计算架构。到上世纪 90 年代初,大多数神经网络研究仍局限于相当浅的网络,后续计算阶段少于 10 个,而我们的方法已经支持了 1000 多个这样的阶段。我想说的是,是我们让神经网络变得如此之深,尤其是 RNN,它是所有网络中最深、最强大的。

2、将神经网络压缩 / 蒸馏成另一个 (1991)

我在上述有关 Neural History Compressor 的论文中还介绍了一种将网络层次结构压缩到单个深度 RNN 的方法,从而学会了解决非常深入的问题。将一个神经网络的知识转移到另一个神经网络的一般原理是,假设教师 NN 已学会预测数据,通过训练学生 NN 模仿教师 NN 的行为,它的知识可以压缩到学生 NN 中。

推荐阅读