会玩躲猫猫的AI能get到什么新技能？( 四 )_科技日报记者冯卫东人类是一种能够适应

图5/6

在最后阶段，躲藏者学会在建造堡垒之前锁定所有箱子，以防止“箱子冲浪”。

图6/6

研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的，适用于多个代理逐渐创造新任务以在特定环境中相互挑战。OpenAI的研究人员认为这个过程在自然选择方面具有相似之处。

为什么这项研究很重要？

鉴于躲猫猫相对简单的目标，通过竞争性自我游戏训练的多个代理学会了使用工具并采用人类相关技能来获胜。OpenAI认为这为未来的智能代理开发和部署提供了一个有前景的研究方向。OpenAI正在开源其代码和环境，以鼓励在该领域进一步研究。

为什么OpenAI感兴趣？

OpenAI的最终目标是构建一个能够在一个通用系统中执行多项任务的人工通用智能（AGI）。虽然可能会有不同的目标，但OpenAI正在大力投资由大规模计算能力实现的强化学习研究。OpenAI最近与微软签署了一份价值10亿美元为期10年的计算合同。

会玩躲猫猫的AI能get到什么新技能？( 四 )