OpenAI:用“捉迷藏”游戏训练AI学会团队合作( 四 )
受过训练的代理学会了协调劳动,例如分别将它们自己的箱子带到一个未经建造的庇护所的地点。
此外,它们形成一个团队进行相互保护,试图通过在准备阶段锁定箱子来抵御寻找者的箱子冲浪。据研究人员称,规模在这方面发挥了关键作用。默认模型需要1.323亿次、超过34小时的训练才能达到技能进步的“斜坡防御”阶段,较大的规模通常会导致更快的训练时间。例如,将参数数量(从历史训练数据中学习的模型部分)从50万增加到580万,样本效率则提高了2.2倍。
基准稳健性
为了评估代理的稳健性,研究人员设计了一套五个基准智能测试,分为两个领域:认知和记忆。所有测试都使用相同的操作空间、观察空间和对象类型作为捉迷藏环境:
对象计数任务测量代理是否具有对象持久性感(即使无法察觉,事物仍然存在的理解)。
第二个任务——锁定和返回——测量代理是否可以在执行新任务时记住其原始位置。
在顺序锁定中,四个盒子位于三个没有门的随机房间,但每个房间都有一个坡道。代理必须按照之前未观察到的特定顺序锁定所有箱子。
推荐阅读
- 电子游戏|电子游戏=精神鸦片?
- 使徒|PS5发布一周年,最受玩家喜爱的10款PS5游戏
- 功勋|大话西游2:玩家晒出多只高等级情怀召唤兽,游戏梦想还记得吗?
- 手机游戏|LOL:手游总是排到牛马队友?选这四个英雄,实力上大分
- 精灵宝可梦|《宝可梦传说:阿尔宙斯》可继承前作存档,游戏形式像是怪物猎人
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 手机游戏|中国游戏登顶全球第一,从日本吸金60亿,还从美国赚回64亿
- 手机游戏|梦幻西游:副本等人时可以刷的任务,随时随地领取,失败也没问题
- 权力的游戏|重温权利的游戏
- 网吧|他们本是素不相识的两个人,直到有一天,她覆盖了他的游戏存档