3年血亏10亿美元谷歌Deepmind出了什么问题？( 二 )_Alphabet旗下的Deepmind

2013 年，DeepMind 在一篇激动人心的论文中将这项技术命名为“深度强化学习”，该论文展示了如何训练一个神经网络系统来玩各种 Atari 游戏，比如 Breakout 和 Space Invaders；不得不承认，有时候它们比人类玩得都要好。这篇论文是一篇工程杰作，大概也是促使 Alphabet 在 2014 年 1 月收购 DeepMind 的主要原因之一。随后，该技术进一步发展，推动了 DeepMind 在围棋和游戏 StarCraft（星际争霸）中取得胜利。

问题就在于，该技术对环境的依赖非常大：在玩 Breakout 时，就连将游戏中的球拍向上移动几个像素这样微小的变化，都会导致游戏性能急剧下降。DeepMind 在星际争霸游戏里的胜利也有着同样的局限——使用特定地图和特定“种族”角色时，其结果优于人类；使用不同地图和不同角色结果较差。如果要更换角色，则要从头开始重新训练系统。

在某种程度上，深度强化学习是一种涡轮增压式的记忆，使用它的系统能够实现一些人们觉得不可思议的目标，但它们本身对自己在做的事情只有肤浅的理解。因此，当前的系统缺乏灵活性，也无法在环境发生变化时进行调整。

深度强化学习还需要大量的数据。比如，AlphaGo 在训练过程中参加了数百万次围棋游戏，这远远超过了一个人想要成为世界级棋手所需要的数量；而且实现这个目标需要巨大规模的计算资源，价格也不菲——据估计，训练 AlphaGo 的成本为 3500 万美元。