3年血亏10亿美元:Google Deepmind出了什么问题?( 二 )

AlphaGo与李世石对战

关于第一个问题,人们有理由持怀疑态度。DeepMind一心扑在深度强化学习上,该技术将主要用于识别模式的深度学习与基于奖励信号的强化学习相结合。

2013年,DeepMind在一篇激动人心的论文中将这项技术命名为“深度强化学习”,该论文展示了如何训练一个神经网络系统来玩各种Atari游戏,比如Breakout和Space Invaders;不得不承认,有时候它们比人类玩得都要好。

这篇论文是一篇工程杰作,大概也是促使Alphabet在2014年1月收购DeepMind的主要原因之一。随后,该技术进一步发展,推动了DeepMind在围棋和游戏StarCraft(星际争霸)中取得胜利。

问题就在于,该技术对环境的依赖非常大:在玩Breakout时,就连将游戏中的球拍向上移动几个像素这样微小的变化,都会导致游戏性能急剧下降。De

epMind在星际争霸游戏里的胜利也有着同样的局限——使用特定地图和特定“种族”角色时,其结果优于人类;使用不同地图和不同角色结果较差。如果要更换角色,则要从头开始重新训练系统。

推荐阅读