“最终之战”人类完败!DOTA2 AI 2:0吊打世界冠军(15)
图丨 Rapid 系统被用到机械手操控上(来源:OpenAI)
另一方面,AI 在 Dota2 中有胜有败的表现,也让人们继续反思相关的技术方向,强化学习是其中讨论度最高的话题之一。
OpenAI 创建人工智能时使用了强化学习算法。这种被认为可以实现让机器“从零开始学习”的技术看似简单,但是能让 AI 习得一些复杂的行为。它有别于传统的监督学习,不需要大量的标注数据,让 AI 在虚拟环境中通过自我尝试和奖励学会复杂的任务。对于游戏这种拥有天然优秀的模拟环境的场景,强化学习被认为可以帮助创造水平极高的游戏 AI。
图17/19
图丨强化学习的原理(来源:thegradient.pub)
强化学习最出风头的案例,恐怕还是 Deepmind 开发 AlphaGo 的一战成名,尤其是 AlphaGo Zero 的诞生。两者都是强化学习发展史上里程碑式的案例。AlphaGo 结合了监督学习、强化学习和其他一些创新的辅助方法,而 AlphaGo Zero 仅仅依靠强化学习和自我对弈,尽管它也使用了预先准备的算法规则用于持续的迭代,依然比前者更遵循了强化学习的整体思路。但著名 AI 学者、新晋图灵奖获得者 Yann LeCun 认为,AlphaGo Zero 的成功很难推广到其他领域。
推荐阅读
- 明日之后|明日之后“人尸大战”展现中国精神:人类的未来我们共同争取
- 手机游戏|英雄联盟手游宣告完败,王者荣耀原形毕露,玩家:内卷失败
- 炉石传说|“第一圣骑士”提里奥·弗丁!“佣兵战纪”人类队的辅助之神
- 重装机兵|盘点《重装机兵》最难人类BOSS战:害死红狼的帕鲁竟不算最强?
- 雕刻|第五人格:修机速度有多恐怖?这么说吧,人类玩家都看不下去!
- pc端卡牌类|圣光的庇佑 佣兵战纪人类流卡组净化邪恶
- 美好世界|“我们的工作只是实现人类的愿望,而不是创造一个我们认为的《美好世界》”
- 威震天|火爆全网的“威震天”被举报了?愚蠢的人类毫无下限
- 三国杀|三国杀里五个最没用的功能!有的简直“反人类”
- 外挂|这次人类输的一败涂地,AI外挂打败了所有的FPS游戏