“最终之战”人类完败！DOTA2 AI 2：0吊打世界冠军(15)_图1

图丨 Rapid 系统被用到机械手操控上（来源：OpenAI）

另一方面，AI 在 Dota2 中有胜有败的表现，也让人们继续反思相关的技术方向，强化学习是其中讨论度最高的话题之一。

OpenAI 创建人工智能时使用了强化学习算法。这种被认为可以实现让机器“从零开始学习”的技术看似简单，但是能让 AI 习得一些复杂的行为。它有别于传统的监督学习，不需要大量的标注数据，让 AI 在虚拟环境中通过自我尝试和奖励学会复杂的任务。对于游戏这种拥有天然优秀的模拟环境的场景，强化学习被认为可以帮助创造水平极高的游戏 AI。

图17/19

图丨强化学习的原理（来源：thegradient.pub）

强化学习最出风头的案例，恐怕还是 Deepmind 开发 AlphaGo 的一战成名，尤其是 AlphaGo Zero 的诞生。两者都是强化学习发展史上里程碑式的案例。AlphaGo 结合了监督学习、强化学习和其他一些创新的辅助方法，而 AlphaGo Zero 仅仅依靠强化学习和自我对弈，尽管它也使用了预先准备的算法规则用于持续的迭代，依然比前者更遵循了强化学习的整体思路。但著名 AI 学者、新晋图灵奖获得者 Yann LeCun 认为，AlphaGo Zero 的成功很难推广到其他领域。