玩躲猫猫游戏，人工智能自动发展出类似人类的攻防策略( 三 )_：玩躲猫猫游戏

作为回应，躲藏者学会了将坡道移入他们的房间，因此寻找者无法用它来越过墙壁。

随着环境变得越来越复杂，躲藏者学会了使用细长箱子建造更强大的“堡垒”。虽然OpenAI认为这将是最终的策略，但在游戏进行到3.8亿回合时，寻找者再次成功反击，找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”，越过墙壁进入堡垒。

在最后阶段，躲藏者学会在建造堡垒之前锁定所有箱子，以防止“箱子冲浪”。

研究人员将这些不同策略的演变称为“来自多智能体自动课程的紧急技能进展”。“自动课程”这一术语是今年由DeepMind创造的，适用于多个代理逐渐创造新任务以在特定环境中相互挑战。OpenAI的研究人员认为，这个过程在自然选择方面具有相似之处。

这项研究为啥很重要？

鉴于躲猫猫相对简单的目标，通过竞争性自我游戏训练的多个代理学会了使用工具，并采用人类相关技能来获胜。OpenAI认为，这为未来的智能代理开发和部署提供了一个有前景的研究方向。OpenAI正在开源其代码和环境，以鼓励在该领域进一步研究。

玩躲猫猫游戏，人工智能自动发展出类似人类的攻防策略( 三 )