OpenAI:用“捉迷藏”游戏训练AI学会团队合作( 四 )

受过训练的代理学会了协调劳动,例如分别将它们自己的箱子带到一个未经建造的庇护所的地点。

此外,它们形成一个团队进行相互保护,试图通过在准备阶段锁定箱子来抵御寻找者的箱子冲浪。据研究人员称,规模在这方面发挥了关键作用。默认模型需要1.323亿次、超过34小时的训练才能达到技能进步的“斜坡防御”阶段,较大的规模通常会导致更快的训练时间。例如,将参数数量(从历史训练数据中学习的模型部分)从50万增加到580万,样本效率则提高了2.2倍。

基准稳健性

为了评估代理的稳健性,研究人员设计了一套五个基准智能测试,分为两个领域:认知和记忆。所有测试都使用相同的操作空间、观察空间和对象类型作为捉迷藏环境:

对象计数任务测量代理是否具有对象持久性感(即使无法察觉,事物仍然存在的理解)。

第二个任务——锁定和返回——测量代理是否可以在执行新任务时记住其原始位置。

在顺序锁定中,四个盒子位于三个没有门的随机房间,但每个房间都有一个坡道。代理必须按照之前未观察到的特定顺序锁定所有箱子。

推荐阅读