会玩躲猫猫的AI能get到什么新技能?( 二 )

研究人员在模拟的、物理接地的环境中放置了一到三个“躲藏者”和一到三个“寻找者”,房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。

研究人员使用强化学习来训练游戏代理,刺激代理实现目标的奖励机制遵循简单的躲猫猫规则:隐藏者成功躲过寻找者的追逐,或是寻求者成功找到躲藏者。

AI如何玩躲猫猫?

在经过数亿次的游戏后,AI代理经历了几个阶段的策略发展过程。

在初始阶段,隐藏者(蓝色)和寻找者(红色)通过在空间中移动而不操纵任何物体,制定了非常粗糙的躲避和追逐策略。

在经历2500万个回合后,游戏变得更加复杂。藏匿者学会了移动和锁定在环境中的箱子和路障,以在自己周围建立堡垒,这样寻找者就永远看不到它们了。不仅如此,他们还制定了协调战略,例如相互传递物体,以加快建造堡垒的进程。

会玩躲猫猫的AI能get到什么新技能?

推荐阅读