2018 年 Top 10 影响力 AI 研究论文( 九 )

内容概要

David Ha 和 Jurgen Schmidhuber 开发了一个世界模型,它可以用无监督的方式快速训练,学到所处环境的空间和时间表示。这个智能体可以成功地在赛车地图中导航,并且在 VizDoom 环境中躲开怪物发射的火球。而这些任务对于此前的方法来说都难以解决。

论文思想要点

论文所提的解决方案包含三个独立的部分:

一个变分自动编码器(VAE),它负责捕捉视觉信息。它会把 RGB 形式表示的输入图像压缩为一个服从 高斯分布的 32 维隐含向量。这样,这个智能体只需要处理一个环境的很小的表示,从而大幅提高了学习效率。一个循环神经网络(RNN),它负责前馈思考。这是一个起到记忆作用的组件,它会在给定前一帧图像和前一个动作的条件下尝试预测视觉部分看到的下一帧图像可能是什么样子。一个控制器,它负责选择动作。它是一个非常简单的神经网络,它把 VAE 的输出和 RNN 的隐含状态级联起来,然后选择一个好的动作。领域内学者评价

这篇论文在 AI 研究者间得到了广泛的讨论,它是一项设计优美的使用神经网络做强化学习的研究,而且让智能体在自己「幻想」出的世界中进行训练。

推荐阅读