3年血亏10亿美元 谷歌Deepmind出了什么问题?( 二 )

2013 年,DeepMind 在一篇激动人心的论文中将这项技术命名为“深度强化学习”,该论文展示了如何训练一个神经网络系统来玩各种 Atari 游戏,比如 Breakout 和 Space Invaders;不得不承认,有时候它们比人类玩得都要好。 这篇论文是一篇工程杰作,大概也是促使 Alphabet 在 2014 年 1 月收购 DeepMind 的主要原因之一。随后,该技术进一步发展,推动了 DeepMind 在围棋和游戏 StarCraft(星际争霸)中取得胜利。

问题就在于,该技术对环境的依赖非常大:在玩 Breakout 时,就连将游戏中的球拍向上移动几个像素这样微小的变化,都会导致游戏性能急剧下降。DeepMind 在星际争霸游戏里的胜利也有着同样的局限——使用特定地图和特定“种族”角色时,其结果优于人类;使用不同地图和不同角色结果较差。如果要更换角色,则要从头开始重新训练系统。

在某种程度上,深度强化学习是一种涡轮增压式的记忆,使用它的系统能够实现一些人们觉得不可思议的目标,但它们本身对自己在做的事情只有肤浅的理解。因此,当前的系统缺乏灵活性,也无法在环境发生变化时进行调整。

深度强化学习还需要大量的数据。比如,AlphaGo 在训练过程中参加了数百万次围棋游戏,这远远超过了一个人想要成为世界级棋手所需要的数量;而且实现这个目标需要巨大规模的计算资源,价格也不菲——据估计,训练 AlphaGo 的成本为 3500 万美元。

推荐阅读