OpenAI:用“捉迷藏”游戏训练AI学会团队合作( 二 )

“创建能够解决各种复杂的人类相关任务的人工智能代理一直是AI社区长期面临的挑战,”合著者在最新的论文中写道。“与人类特别相关的是能够感知和与物理世界中的物体互动的代理。”

训练和比赛

捉迷藏式代理人倾向于强化学习,这种技术利用奖励来推动软件策略实现目标,通过反复试验进行自我学习。

近年来,强化学习与强大的计算能力相结合取得了巨大的成功,但它也有其局限性。指定奖励功能或收集演示以监督任务可能既耗时又昂贵。(最先进的方法要求对专家演示数据进行监督性学习,并使用奖励来进一步提高效率。)此外,任务描述限制了单一代理强化任务中的学习技能;一旦代理人学会解决任务,就没有太大的改进空间。

研究人员反而采用了他们称之为“无向探索”的策略,即代理人在对游戏世界的理解中自由发展,以制定创造性的制胜策略。它类似于DeepMind科学家去年倡导的多代理学习方法,在一项研究中,多个AI系统经过训练,可以在《Quake III Arena》游戏中玩夺旗。与这项研究一样,人工智能代理事先没有学过游戏规则,但它们随着时间的推移学会了基本策略,并最终在技能上超越了大多数人类玩家。

推荐阅读