人形AI捉迷藏惊煞网友:飞檐走壁纯靠自学,表情丰富还会合作,姚班学霸吴翼参与( 五 )

这其中,既包含多轮不同的紧急策略,也包括复杂的工具使用和团队协调。

所谓课程(curricula),可以被视为一系列挑战。而自动课程(autocurricula)就是指,每个挑战都是由系统本身产生的。(这一概念由DeepMind提出,论文地址见文末)

人形AI捉迷藏惊煞网友:飞檐走壁纯靠自学,表情丰富还会合作,姚班学霸吴翼参与

△AI们在训练过程中发现了多达六种独特的策略

并且,环境变复杂,AI们的表现反而更加强大。与其他自我监督的强化学习方法相比,这群AI的行为更像人类。

OpenAI称之为无目标探索。

AI们事先并没有学过捉迷藏的游戏规则,而是凭借对游戏世界的理解自由发展。

为了实现这一点,研究人员利用了以实体为中心的观察(observation),并采用注意力机制来捕获对象层信息。

人形AI捉迷藏惊煞网友:飞檐走壁纯靠自学,表情丰富还会合作,姚班学霸吴翼参与

推荐阅读