世界欠他一个图灵奖！LSTM之父的深度学习“奇迹之年”(17)_图1

图15/24

11、使用循环神经世界模型做规划 (1990)

1990 年，我介绍了基于两个 RNN 的组合 (分别称为控制器 C 和世界模型 M) 的强化学习和规划。M 学习预测 C 行为的后果。C 学习使用 M 提前规划几个时间步骤，并选择最大化预测累积奖励的动作序列。基于此也有许多后续研究。

图16/24

12. 将目标定义作为额外的 NN 输入 (1990)

今天的强化学习神经网络中广泛使用的一个概念是使用额外的目标定义输入模式来编码许多任务，以便神经网络知道下一步该执行哪个任务。我们在 1990 年的许多工作中提出了这一概念。

具有端到端可微子目标生成器的分层强化学习 (Hierarchical RL) 也使用一个带有任务定义输入 (start, goal) 的神经网络，学习预测从 start 到 goal 的成本。(四分之一个世纪后，我以前的学生 Tom Schaul 在 DeepMind 提出了 “通用值函数逼近器”。