腾讯AI Lab x 王者荣耀：开放让AI+游戏想象力落地( 六 )_8月18日

作为一个典型的AI难题，AI在王者荣耀中的研发有几大难点：1）地图庞大且在在战场迷雾下部分状态不可观测，信息不完备，不存在最优策略；2）操作序列空间巨大，有高达10的20000次方种操作可能性（整个宇宙原子总数只有10的80次方），探索难度极大；3）对战在两个团队（每队5名玩家）展开，需多个智能体在竞争中配合协作；4）需要从大量、复杂、连续的即时决策到长期决策中不断博弈，一切以最终胜利为目标。通俗来说就是“局面复杂、信息不全、要深谋远虑又要快速果断”。

面对这个复杂的难题，我们在2018年的研究工作主要集中在模仿学习上。通过将复杂问题分层解决，我们在模型设计方面，将大局观和微操分层建模，同时，将观察到的视觉信息和宏观向量数据分开，模型上采用多模态的深度网络，通过学习职业选手历史上的数据，完成了第一个版本的「绝悟」，并在2018年的KPL秋季决赛上通过了业余顶级选手能力测试。

模仿学习帮助我们更加了解了这个游戏，但模仿学习的局限性也很明显，很难通过学习选手的数据而在能力上超越职业选手，因此，我们接下来开始探索强化学习的解决方案。相当于模仿学习，强化学习的建模上，我们采用了自主设计的One Model，通过一个模型来表达所有的英雄，从而能实现多智能体之间的通信协作；同时我们采用的白板学习，让智能体从0到1学习策略与操作，不再依赖于人类数据，这也相当于不用历史经验来限制智能体的探索；在强化学习框架的建设上，我们构建了一个能支持复杂游戏的超大规模强化学习框架，支持多机多卡GPU同步训练，CPU采用自研的前向推理框架来支持Agent快速自对战。自对战的速度最大可以达到1500万局/天；单张GPU卡的训练速度由原来1800样本/s提升到5000样本/s，简单来说，在这套自研的强化学习平台上，AI对战一天，相当于普通玩家玩440年。