腾讯AI Lab x 王者荣耀:开放让AI+游戏想象力落地( 六 )
作为一个典型的AI难题,AI在王者荣耀中的研发有几大难点:1)地图庞大且在在战场迷雾下部分状态不可观测,信息不完备,不存在最优策略;2)操作序列空间巨大,有高达10的20000次方种操作可能性(整个宇宙原子总数只有10的80次方),探索难度极大;3)对战在两个团队(每队5名玩家)展开,需多个智能体在竞争中配合协作;4)需要从大量、复杂、连续的即时决策到长期决策中不断博弈,一切以最终胜利为目标。通俗来说就是“局面复杂、信息不全、要深谋远虑又要快速果断”。
面对这个复杂的难题,我们在2018年的研究工作主要集中在模仿学习上。通过将复杂问题分层解决,我们在模型设计方面,将大局观和微操分层建模,同时,将观察到的视觉信息和宏观向量数据分开,模型上采用多模态的深度网络,通过学习职业选手历史上的数据,完成了第一个版本的「绝悟」,并在2018年的KPL秋季决赛上通过了业余顶级选手能力测试。
模仿学习帮助我们更加了解了这个游戏,但模仿学习的局限性也很明显,很难通过学习选手的数据而在能力上超越职业选手,因此,我们接下来开始探索强化学习的解决方案。相当于模仿学习,强化学习的建模上,我们采用了自主设计的One Model,通过一个模型来表达所有的英雄,从而能实现多智能体之间的通信协作;同时我们采用的白板学习,让智能体从0到1学习策略与操作,不再依赖于人类数据,这也相当于不用历史经验来限制智能体的探索;在强化学习框架的建设上,我们构建了一个能支持复杂游戏的超大规模强化学习框架,支持多机多卡GPU同步训练,CPU采用自研的前向推理框架来支持Agent快速自对战。自对战的速度最大可以达到1500万局/天;单张GPU卡的训练速度由原来1800样本/s提升到5000样本/s,简单来说,在这套自研的强化学习平台上,AI对战一天,相当于普通玩家玩440年。
推荐阅读
- 王者荣耀|DNF:新号主才玩2个月!“土豪哥”剑魂又被卖了,装备毕业却贬值
- ag战队|王者荣耀国际邀请赛本月开启,成都AG代表KPL赛区出战,冠军奖金高达六位数
- 配音|《王者荣耀》节奏层出不穷,嫦娥配音事件表面和解,暗中阴阳,洪海天发声:将主动解约
- 腾讯|腾讯49亿日元投资目标明确:3款新游明后年全球发行,强化主力IP
- 腾讯|LPL年度最佳选手,同队最多三人,选谁?
- 王者荣耀|天美捧公孙离的历史操作:她才是王者荣耀真正的女主角
- 打野|王者荣耀:玩打野你不得不明白的四大逻辑,野王并不是谁都能当
- 腾讯|LPL官方发新歌,JKL被吐槽累死调音师,网友:Lvmao努力在C了!
- 王者荣耀|王者荣耀:排位环境复杂已成事实,怎么上分才是关键,别怪队友菜
- 公孙离|王者荣耀:公孙离到底要怎么进场输出?对线打穿,一团就废