腾讯AI Lab x 王者荣耀:开放让AI+游戏想象力落地( 六 )

作为一个典型的AI难题,AI在王者荣耀中的研发有几大难点:1)地图庞大且在在战场迷雾下部分状态不可观测,信息不完备,不存在最优策略;2)操作序列空间巨大,有高达10的20000次方种操作可能性(整个宇宙原子总数只有10的80次方),探索难度极大;3)对战在两个团队(每队5名玩家)展开,需多个智能体在竞争中配合协作;4)需要从大量、复杂、连续的即时决策到长期决策中不断博弈,一切以最终胜利为目标。通俗来说就是“局面复杂、信息不全、要深谋远虑又要快速果断”。

面对这个复杂的难题,我们在2018年的研究工作主要集中在模仿学习上。通过将复杂问题分层解决,我们在模型设计方面,将大局观和微操分层建模,同时,将观察到的视觉信息和宏观向量数据分开,模型上采用多模态的深度网络,通过学习职业选手历史上的数据,完成了第一个版本的「绝悟」,并在2018年的KPL秋季决赛上通过了业余顶级选手能力测试。

模仿学习帮助我们更加了解了这个游戏,但模仿学习的局限性也很明显,很难通过学习选手的数据而在能力上超越职业选手,因此,我们接下来开始探索强化学习的解决方案。相当于模仿学习,强化学习的建模上,我们采用了自主设计的One Model,通过一个模型来表达所有的英雄,从而能实现多智能体之间的通信协作;同时我们采用的白板学习,让智能体从0到1学习策略与操作,不再依赖于人类数据,这也相当于不用历史经验来限制智能体的探索;在强化学习框架的建设上,我们构建了一个能支持复杂游戏的超大规模强化学习框架,支持多机多卡GPU同步训练,CPU采用自研的前向推理框架来支持Agent快速自对战。自对战的速度最大可以达到1500万局/天;单张GPU卡的训练速度由原来1800样本/s提升到5000样本/s,简单来说,在这套自研的强化学习平台上,AI对战一天,相当于普通玩家玩440年。

推荐阅读