OpenAI:用“捉迷藏”游戏训练AI学会团队合作( 二 )
“创建能够解决各种复杂的人类相关任务的人工智能代理一直是AI社区长期面临的挑战,”合著者在最新的论文中写道。“与人类特别相关的是能够感知和与物理世界中的物体互动的代理。”
训练和比赛
捉迷藏式代理人倾向于强化学习,这种技术利用奖励来推动软件策略实现目标,通过反复试验进行自我学习。
近年来,强化学习与强大的计算能力相结合取得了巨大的成功,但它也有其局限性。指定奖励功能或收集演示以监督任务可能既耗时又昂贵。(最先进的方法要求对专家演示数据进行监督性学习,并使用奖励来进一步提高效率。)此外,任务描述限制了单一代理强化任务中的学习技能;一旦代理人学会解决任务,就没有太大的改进空间。
研究人员反而采用了他们称之为“无向探索”的策略,即代理人在对游戏世界的理解中自由发展,以制定创造性的制胜策略。它类似于DeepMind科学家去年倡导的多代理学习方法,在一项研究中,多个AI系统经过训练,可以在《Quake III Arena》游戏中玩夺旗。与这项研究一样,人工智能代理事先没有学过游戏规则,但它们随着时间的推移学会了基本策略,并最终在技能上超越了大多数人类玩家。
推荐阅读
- 电子游戏|电子游戏=精神鸦片?
- 使徒|PS5发布一周年,最受玩家喜爱的10款PS5游戏
- 功勋|大话西游2:玩家晒出多只高等级情怀召唤兽,游戏梦想还记得吗?
- 手机游戏|LOL:手游总是排到牛马队友?选这四个英雄,实力上大分
- 精灵宝可梦|《宝可梦传说:阿尔宙斯》可继承前作存档,游戏形式像是怪物猎人
- 捉迷藏|?LOL世界赛“含金量”数据出炉:EDG仅排第六,IG稳居榜首
- 手机游戏|中国游戏登顶全球第一,从日本吸金60亿,还从美国赚回64亿
- 手机游戏|梦幻西游:副本等人时可以刷的任务,随时随地领取,失败也没问题
- 权力的游戏|重温权利的游戏
- 网吧|他们本是素不相识的两个人,直到有一天,她覆盖了他的游戏存档