世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”( 九 )
我称之为将一个网络的行为 “collapsing” 或 “compressing” 到另一个。今天,这个概念已经被广泛使用,也被称为将教师网络的行为 “蒸馏”(distilling) 或 “克隆” 到学生网络。
3、基本的深度学习问题:梯度消失 / 爆炸 (1991)
前文我们指出深度学习很难。但为什么很难呢?一个主要原因是,我喜欢称之为 “基本深度学习问题”,由我的学生 Sepp Hochreiter 1991 年在他的毕业论文 [VAN1] 中提出和分析。
图7/24
作为论文的一部分,Sepp 实现了上述 (第 1 节) 的 Neural History Compressor 和其他基于 RNN 的系统 (第 11 节)。但是,他做了更多的工作:他的工作正式表明,深度神经网络遭受梯度消失或梯度爆炸问题:在典型的深度网络或循环网络中,反向传播的错误信号要么迅速缩小,要么超出界限。在这两种情况下,学习都会失败。这种分析引出了 LSTM 的基本原理 (第 4 节)。
推荐阅读
- 设计师|魔兽世界:9.1.5刚上线,就要9.2了?来看设计师爆料的更多细节
- skt|被SKT冷藏埋没,来中国带队打进世界赛决赛的励志人物史
- LGD|LOL:SN又差点翻车?NEST焕峰烬重现世界名画高地反向架狙!
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 魔兽世界|魔兽TBC:为什么玩家期待跨区组队?降低组队难度,无需频繁换区
- edg战队|“EDG夺冠只拿48万”!同样是世界冠军,IG却可以拿到242万美金
- 雷神|原神:曾经有一个强力五星角色,却因各种“流言蜚语”,擦肩而过
- 魔兽世界|魔兽世界:60版本赛季服最新消息,大家都跑过去体验,真香定律
- 点卡|魔兽世界:9.1.5首日“回归潮”?游戏实力劝退玩家,真有点卡
- 魔兽世界|魔兽世界TBC:猎人宠物挑选指南,引怪是其次,这个误区不能犯