世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”(12)

当人类与世界互动时,他们学会预测自己行为的后果。他们也很好奇,设计实验得出新的数据,从中他们可以学到更多。为了构建好奇的人工智能体,我在 1990 年介绍了一种新型的主动无监督学习或自监督学习。它基于一个极小极大博弈,其中一个神经网络最小化另一个神经网络最大化的目标函数。我把这两种无监督的对抗性神经网络之间的决斗称为对抗性好奇心 (Adversarial Curiosity)[AC19],以区别于人工好奇心 (Artificial Curiosity)。

世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”

图10/24

6、通过最大化学习神经网络学习进度的人工好奇心 (1991)

在这里,我重点介绍 1991 年 [AC91] [AC91b] 对对抗性好奇心 (Adversarial Curiosity) 的第一个重要改进。

世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”

图11/24

推荐阅读