世界欠他一个图灵奖!LSTM之父的深度学习“奇迹之年”(13)

AC1990 世界模型 M 的误差 (待最小化) 是控制器 C 的奖励 (待最大化)。这在许多确定性环境中是一个很好的探索策略。然而,在随机环境中,这可能会失败。C 可能会学习把重点放在 M 总是由于随机性或由于其计算限制而得到高预测误差的情况上。

因此,正如 1991 年的论文指出的,在随机环境中,C 的奖励不应该是 M 的误差,而应该是 M 的误差在后续训练迭代中的一阶导数的近似,即 M 的改进。这一认识指导了许多相关的后续工作。

7、用于无监督数据建模的对抗网络 (1991)

1990 年我第一次研究对抗性生成网络后不久,我介绍了一个非监督对抗性极小极大值原理的变体。神经网络最重要的任务之一就是学习图像等给定数据的统计量。为了实现这一点,我再次在一个极小极大博弈中使用了梯度下降 / 上升的原理,在这个博弈中,一个神经网络最小化了另一个神经网络最大化的目标函数。这两个无监督的对抗性神经网络之间的决斗被称为可预测性最小化 (Predictability Minimization, PM)。(与后来的 GAN 相反,PM 是一个纯粹的极大极小博弈)。

推荐阅读