世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”(17)
图15/24
11、使用循环神经世界模型做规划 (1990)
1990 年,我介绍了基于两个 RNN 的组合 (分别称为控制器 C 和世界模型 M) 的强化学习和规划。M 学习预测 C 行为的后果。C 学习使用 M 提前规划几个时间步骤,并选择最大化预测累积奖励的动作序列。基于此也有许多后续研究。
图16/24
12. 将目标定义作为额外的 NN 输入 (1990)
今天的强化学习神经网络中广泛使用的一个概念是使用额外的目标定义输入模式来编码许多任务,以便神经网络知道下一步该执行哪个任务。我们在 1990 年的许多工作中提出了这一概念。
具有端到端可微子目标生成器的分层强化学习 (Hierarchical RL) 也使用一个带有任务定义输入 (start, goal) 的神经网络,学习预测从 start 到 goal 的成本。(四分之一个世纪后,我以前的学生 Tom Schaul 在 DeepMind 提出了 “通用值函数逼近器”。
推荐阅读
- 设计师|魔兽世界:9.1.5刚上线,就要9.2了?来看设计师爆料的更多细节
- skt|被SKT冷藏埋没,来中国带队打进世界赛决赛的励志人物史
- LGD|LOL:SN又差点翻车?NEST焕峰烬重现世界名画高地反向架狙!
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 魔兽世界|魔兽TBC:为什么玩家期待跨区组队?降低组队难度,无需频繁换区
- edg战队|“EDG夺冠只拿48万”!同样是世界冠军,IG却可以拿到242万美金
- 雷神|原神:曾经有一个强力五星角色,却因各种“流言蜚语”,擦肩而过
- 魔兽世界|魔兽世界:60版本赛季服最新消息,大家都跑过去体验,真香定律
- 点卡|魔兽世界:9.1.5首日“回归潮”?游戏实力劝退玩家,真有点卡
- 魔兽世界|魔兽世界TBC:猎人宠物挑选指南,引怪是其次,这个误区不能犯