谷歌与DeepMind:史上最强AI拉锯战( 十 )

强化学习

总体上来说DeepMind进步明显。它的软件可以模拟甚至超越人类学习执行任务。比如打砖块游戏。没有人类指导,DeepMind的程序不仅学会了玩这个游戏,而且还学会了如何把球打进砖块后面的空间,利用球回弹来打更多的砖块。Hassabis说,这证明了强化学习的力量和DeepMind计算程序的非凡能力。

这个游戏演示令人印象深刻,但有个问题。如果虚拟球拍移动得更高一些,程序就会失败。AI项目所掌握的技能非常有限,即使对环境的微小变化也无法做出反应,除非接受数千轮强化学习。现实世界的变化太多了。对于智能诊断来说,没有两个身体器官是完全相同的。对于智能机械,没有两个引擎可以用相同的方式调整。因此,将虚拟空间中完善的程序投放到现实世界困难重重。

另外一个问题是,虚拟环境中的成功取决于奖励机制:一个允许软件衡量其进程的信号。程序了解到物体从墙上回弹会加分。AlphaGo很多编程工作都是在构建与复杂游戏兼容的奖励函数。不幸的是,现实世界并不提供这种简单的奖励。政治因素使问题更加复杂化。要协调气候健康的奖励信号(单位体积二氧化碳粒子数)与石油公司的奖励信号(股价),牵涉到许多动机矛盾的各方。奖励信号往往非常微弱。而人脑在执行任务的过程中不会去想有没有奖励的问题。

推荐阅读