谷歌与DeepMind：史上最强AI拉锯战( 十 )_【猎云网（微信号：ilieyun）】3月18日

强化学习

总体上来说DeepMind进步明显。它的软件可以模拟甚至超越人类学习执行任务。比如打砖块游戏。没有人类指导，DeepMind的程序不仅学会了玩这个游戏，而且还学会了如何把球打进砖块后面的空间，利用球回弹来打更多的砖块。Hassabis说，这证明了强化学习的力量和DeepMind计算程序的非凡能力。

这个游戏演示令人印象深刻，但有个问题。如果虚拟球拍移动得更高一些，程序就会失败。AI项目所掌握的技能非常有限，即使对环境的微小变化也无法做出反应，除非接受数千轮强化学习。现实世界的变化太多了。对于智能诊断来说，没有两个身体器官是完全相同的。对于智能机械，没有两个引擎可以用相同的方式调整。因此，将虚拟空间中完善的程序投放到现实世界困难重重。

另外一个问题是，虚拟环境中的成功取决于奖励机制：一个允许软件衡量其进程的信号。程序了解到物体从墙上回弹会加分。AlphaGo很多编程工作都是在构建与复杂游戏兼容的奖励函数。不幸的是，现实世界并不提供这种简单的奖励。政治因素使问题更加复杂化。要协调气候健康的奖励信号（单位体积二氧化碳粒子数）与石油公司的奖励信号（股价），牵涉到许多动机矛盾的各方。奖励信号往往非常微弱。而人脑在执行任务的过程中不会去想有没有奖励的问题。