世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”( 九 )

我称之为将一个网络的行为 “collapsing” 或 “compressing” 到另一个。今天,这个概念已经被广泛使用,也被称为将教师网络的行为 “蒸馏”(distilling) 或 “克隆” 到学生网络。

3、基本的深度学习问题:梯度消失 / 爆炸 (1991)

前文我们指出深度学习很难。但为什么很难呢?一个主要原因是,我喜欢称之为 “基本深度学习问题”,由我的学生 Sepp Hochreiter 1991 年在他的毕业论文 [VAN1] 中提出和分析。

世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”

图7/24

作为论文的一部分,Sepp 实现了上述 (第 1 节) 的 Neural History Compressor 和其他基于 RNN 的系统 (第 11 节)。但是,他做了更多的工作:他的工作正式表明,深度神经网络遭受梯度消失或梯度爆炸问题:在典型的深度网络或循环网络中,反向传播的错误信号要么迅速缩小,要么超出界限。在这两种情况下,学习都会失败。这种分析引出了 LSTM 的基本原理 (第 4 节)。

推荐阅读