谷歌与DeepMind:史上最强AI拉锯战( 十 )
强化学习
总体上来说DeepMind进步明显。它的软件可以模拟甚至超越人类学习执行任务。比如打砖块游戏。没有人类指导,DeepMind的程序不仅学会了玩这个游戏,而且还学会了如何把球打进砖块后面的空间,利用球回弹来打更多的砖块。Hassabis说,这证明了强化学习的力量和DeepMind计算程序的非凡能力。
这个游戏演示令人印象深刻,但有个问题。如果虚拟球拍移动得更高一些,程序就会失败。AI项目所掌握的技能非常有限,即使对环境的微小变化也无法做出反应,除非接受数千轮强化学习。现实世界的变化太多了。对于智能诊断来说,没有两个身体器官是完全相同的。对于智能机械,没有两个引擎可以用相同的方式调整。因此,将虚拟空间中完善的程序投放到现实世界困难重重。
另外一个问题是,虚拟环境中的成功取决于奖励机制:一个允许软件衡量其进程的信号。程序了解到物体从墙上回弹会加分。AlphaGo很多编程工作都是在构建与复杂游戏兼容的奖励函数。不幸的是,现实世界并不提供这种简单的奖励。政治因素使问题更加复杂化。要协调气候健康的奖励信号(单位体积二氧化碳粒子数)与石油公司的奖励信号(股价),牵涉到许多动机矛盾的各方。奖励信号往往非常微弱。而人脑在执行任务的过程中不会去想有没有奖励的问题。
推荐阅读
- 地下城与勇士|DNF:地下城史上第一年!双11活动被策划“阉割”,原来是赚够了
- 紫霞仙子|大话西游2:大话史上“巾帼不让须眉”之表妹
- 网游|网游史上头号恶人,野外见人就打还收保护费,三季稻都要拱手称弟
- 陆游|传世群英版:传奇世界元神手游史上最完整的攻略
- 电子竞技|水晶哥复盘S11总决赛:EDG含金量史上最强,iG都稍微差点
- 地下城与勇士|史上最烧钱的四款游戏,DNF竟进不了前三,第一名一个宝宝100万
- 剑网3|剑网3:你认为史上最难的boss有哪些?
- RNG|FPX第一、RNG第十!外媒盘点S赛史上最令人失望的十支队伍
- 主机掌机类游戏|史上最惨的独狼?不仅遭受雷符的迫害,甚至还被法神给三包一
- 马里奥赛车8豪华版|《马里奥赛车8豪华版》成为系列游戏史上最畅销一作