OpenAI：用“捉迷藏”游戏训练AI学会团队合作( 二 )_猎云网注：“捉迷藏式代理人倾向于强化

“创建能够解决各种复杂的人类相关任务的人工智能代理一直是AI社区长期面临的挑战，”合著者在最新的论文中写道。“与人类特别相关的是能够感知和与物理世界中的物体互动的代理。”

训练和比赛

捉迷藏式代理人倾向于强化学习，这种技术利用奖励来推动软件策略实现目标，通过反复试验进行自我学习。

近年来，强化学习与强大的计算能力相结合取得了巨大的成功，但它也有其局限性。指定奖励功能或收集演示以监督任务可能既耗时又昂贵。（最先进的方法要求对专家演示数据进行监督性学习，并使用奖励来进一步提高效率。）此外，任务描述限制了单一代理强化任务中的学习技能；一旦代理人学会解决任务，就没有太大的改进空间。

研究人员反而采用了他们称之为“无向探索”的策略，即代理人在对游戏世界的理解中自由发展，以制定创造性的制胜策略。它类似于DeepMind科学家去年倡导的多代理学习方法，在一项研究中，多个AI系统经过训练，可以在《Quake III Arena》游戏中玩夺旗。与这项研究一样，人工智能代理事先没有学过游戏规则，但它们随着时间的推移学会了基本策略，并最终在技能上超越了大多数人类玩家。