OpenAI：用“捉迷藏”游戏训练AI学会团队合作( 四 )_猎云网注：“捉迷藏式代理人倾向于强化

受过训练的代理学会了协调劳动，例如分别将它们自己的箱子带到一个未经建造的庇护所的地点。

此外，它们形成一个团队进行相互保护，试图通过在准备阶段锁定箱子来抵御寻找者的箱子冲浪。据研究人员称，规模在这方面发挥了关键作用。默认模型需要1.323亿次、超过34小时的训练才能达到技能进步的“斜坡防御”阶段，较大的规模通常会导致更快的训练时间。例如，将参数数量（从历史训练数据中学习的模型部分）从50万增加到580万，样本效率则提高了2.2倍。

基准稳健性

为了评估代理的稳健性，研究人员设计了一套五个基准智能测试，分为两个领域：认知和记忆。所有测试都使用相同的操作空间、观察空间和对象类型作为捉迷藏环境：

对象计数任务测量代理是否具有对象持久性感（即使无法察觉，事物仍然存在的理解）。

第二个任务——锁定和返回——测量代理是否可以在执行新任务时记住其原始位置。

在顺序锁定中，四个盒子位于三个没有门的随机房间，但每个房间都有一个坡道。代理必须按照之前未观察到的特定顺序锁定所有箱子。