世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”(13)
AC1990 世界模型 M 的误差 (待最小化) 是控制器 C 的奖励 (待最大化)。这在许多确定性环境中是一个很好的探索策略。然而,在随机环境中,这可能会失败。C 可能会学习把重点放在 M 总是由于随机性或由于其计算限制而得到高预测误差的情况上。
因此,正如 1991 年的论文指出的,在随机环境中,C 的奖励不应该是 M 的误差,而应该是 M 的误差在后续训练迭代中的一阶导数的近似,即 M 的改进。这一认识指导了许多相关的后续工作。
7、用于无监督数据建模的对抗网络 (1991)
1990 年我第一次研究对抗性生成网络后不久,我介绍了一个非监督对抗性极小极大值原理的变体。神经网络最重要的任务之一就是学习图像等给定数据的统计量。为了实现这一点,我再次在一个极小极大博弈中使用了梯度下降 / 上升的原理,在这个博弈中,一个神经网络最小化了另一个神经网络最大化的目标函数。这两个无监督的对抗性神经网络之间的决斗被称为可预测性最小化 (Predictability Minimization, PM)。(与后来的 GAN 相反,PM 是一个纯粹的极大极小博弈)。
推荐阅读
- 设计师|魔兽世界:9.1.5刚上线,就要9.2了?来看设计师爆料的更多细节
- skt|被SKT冷藏埋没,来中国带队打进世界赛决赛的励志人物史
- LGD|LOL:SN又差点翻车?NEST焕峰烬重现世界名画高地反向架狙!
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 魔兽世界|魔兽TBC:为什么玩家期待跨区组队?降低组队难度,无需频繁换区
- edg战队|“EDG夺冠只拿48万”!同样是世界冠军,IG却可以拿到242万美金
- 雷神|原神:曾经有一个强力五星角色,却因各种“流言蜚语”,擦肩而过
- 魔兽世界|魔兽世界:60版本赛季服最新消息,大家都跑过去体验,真香定律
- 点卡|魔兽世界:9.1.5首日“回归潮”?游戏实力劝退玩家,真有点卡
- 魔兽世界|魔兽世界TBC:猎人宠物挑选指南,引怪是其次,这个误区不能犯