OpenAI:用“捉迷藏”游戏训练AI学会团队合作( 三 )

微软的Suphx AI、OpenAI的OpenAI Five、DeepMind的AlphaStar和Facebook的Pluribus分别采用类似的策略掌握了麻将、Dota 2、星际争霸II和德州扑克。

手握捉迷藏目标,几个代理在短暂的阶段之后不得不避开竞争对手的视线,在这个阶段,这些竞争对手被固定,而寻找者则被指示密切关注躲藏者。(在这种情况下,“视线”是指个体代理面前的135度视锥细胞。)如果代理在游戏区域外冒险太远而被迫在随机生成的房间和墙壁上进行导航,并且它们可以拾取分散在整个环境中无限期锁定到位的物体(主要是盒子),那么代理则会受到惩罚。代理在训练过程中发现了多达六种独特的策略,每种策略都迫使它们进入下一个游戏阶段。

起初,躲藏者和寻找者只是逃跑并互相追逐,但在大约2500万次捉迷藏之后,躲避者学会了通过将箱子移到一起并靠墙来建造隐蔽的庇护所。经过另外7500万场比赛后,寻找者们移动并使用坡道跳过箱子进入庇护所,随后又进行了1000万次比赛,躲藏者开始将斜坡带到游乐区的边缘并将其锁定到位阻止寻找者使用它们。最后,在总共3.8亿次比赛之后,寻找者自学了将箱子带到游乐区的边缘,并有效地将它们“冲浪”到躲藏者的庇护所,充分利用游戏空间允许它们随着盒子一起移动的事实。

推荐阅读