AI|清华打造足球AI:首次实现同时控制10名球员完成比赛 胜率94.4%( 二 )
直接学习WeKick中的单智能体操作并复制到每个球员身上显然不可取 , 因为这样大家都只会自顾自地去抢球往球门冲 , 根本就不会有团队配合 。
又没有后场非活跃球员动作的数据 , 那怎么办?
他们在动作集内添加了第二十个动作:build-in , 并赋予所有非活跃球员此标签(比赛中若选用build-in作为球员的动作 , 球员会根据内置规则采取行动) 。
接着采用多智能体行为克隆(MABC)算法训练模型 。
对于离线强化学习来说 , 最核心的思想是找出数据中质量较高的动作 , 并加强对这些动作的学习 。
所以需在计算目标函数时赋予每个标签不同的权重 , 防止球员倾向于只采用某个动作作为行动 。
这里的权重分配有两点考虑:
一是从数据集中挑选出进球数较多的比赛、只利用这些高质量的数据来训练 , 由于奖励较为密集 , 模型能够加速收敛并提高性能 。
二是训练出Critic网络给所有动作打分 , 并利用其结果计算出优势函数 , 然后给予优势函数值大的动作较高的权重 , 反之给予较低的权重 。
此处为了避免梯度爆炸与消失 , 对优势函数做出了适当的裁剪 。
最终的分布式训练架构由一个Learner与多个Worker构成 。
其中Learner负责学习并更新策略 , 而Worker负责搜集数据 , 它们通过gRPC进行数据、网络参数的交换与共享 。
文章图片
Worker可以利用多进程的方式同时与多个游戏环境进行交互 , 或是通过I/O同步读取离线数据 。
这种并行化的执行方式 , 也就大幅提升了数据搜集的速度 , 从而提升训练速度 (5小时就能达到别的分布式训练算法两天才能达到的同等性能) 。
另外 , 通过模块化设计 , 该框架还能在不修改任何代码的情况下 , 一键切换单节点调试模式和多节点分布式训练模式 , 大大降低算法实现和训练的难度 。
94.4%的获胜率和场均3分的净胜分
在多智能体(GRF)游戏上的不同算法比较结果中 , TiKick的最终算法(+AW)以最高的获胜率(94.4%)和最大的目标差异达到了最佳性能 。
TrueSkill(机器学习中竞技类游戏的排名系统)得分也是第一 。
文章图片
TiKick与内置AI的对战分别达到了94.4%的胜率和场均3分的净胜分 。
推荐阅读
- |南安市司法局“加减乘除” 打造最优法治营商环境
- 科技创新平台|云南:打造世界一流食用菌科技创新平台
- Siamese|一个框架统一Siamese自监督学习,清华、商汤提出简洁、有效梯度形式,
- 风险|筑牢安全线 打造防护堤 中国移动为5G业务发展保驾护航
- 平台|[原]蚂蚁集团SOFAStack:新一代分布式云PaaS平台,打造企业上云新体验
- 汽车|现代汽车公布CES 2022参展主题:打造机器人和元宇宙全新移动出行体验
- 生产线|贵阳经开区打造千亿元级产业园区——做强经济“顶梁柱”
- 运营|Yiwealth面向百家金融机构免费提供百万元智能内容产品及服务,打造财富管理行业智慧运营新基建
- 服贸|京东云助力打造“永不落幕的服贸会”案例入选中国信通院“云安全守卫者计划”
- 平台|京东云助力打造“永不落幕的服贸会”案例入选中国信通院“云安全守卫者计划”