“最终之战”人类完败!DOTA2 AI 2:0吊打世界冠军(15)

图丨 Rapid 系统被用到机械手操控上(来源:OpenAI)

另一方面,AI 在 Dota2 中有胜有败的表现,也让人们继续反思相关的技术方向,强化学习是其中讨论度最高的话题之一。

OpenAI 创建人工智能时使用了强化学习算法。这种被认为可以实现让机器“从零开始学习”的技术看似简单,但是能让 AI 习得一些复杂的行为。它有别于传统的监督学习,不需要大量的标注数据,让 AI 在虚拟环境中通过自我尝试和奖励学会复杂的任务。对于游戏这种拥有天然优秀的模拟环境的场景,强化学习被认为可以帮助创造水平极高的游戏 AI。

“最终之战”人类完败!DOTA2 AI 2:0吊打世界冠军

图17/19

图丨强化学习的原理(来源:thegradient.pub)

强化学习最出风头的案例,恐怕还是 Deepmind 开发 AlphaGo 的一战成名,尤其是 AlphaGo Zero 的诞生。两者都是强化学习发展史上里程碑式的案例。AlphaGo 结合了监督学习、强化学习和其他一些创新的辅助方法,而 AlphaGo Zero 仅仅依靠强化学习和自我对弈,尽管它也使用了预先准备的算法规则用于持续的迭代,依然比前者更遵循了强化学习的整体思路。但著名 AI 学者、新晋图灵奖获得者 Yann LeCun 认为,AlphaGo Zero 的成功很难推广到其他领域。

推荐阅读