人形AI捉迷藏惊煞网友:飞檐走壁纯靠自学,表情丰富还会合作,姚班学霸吴翼参与( 六 )

在设定的环境中,每个智能体都根据自身的观察和隐藏内存状态独立行动。

每个物体都会被嵌入,并通过一个有遮挡的剩余自注意块(residual self attention block),在这其中,注意力集中在物体上,而不是随着时间改变。

那些就在智能体面前,但并不在其视线之内的物体则会被屏蔽掉,这样智能体就捕捉不到它们的信息了。

智能体的策略是通过左右互搏(self-play)和近端策略优化训练出来的。在优化期间,智能体可以在其值函数中使用有关被遮挡物体和其他智能体的特权信息。

人形AI捉迷藏惊煞网友:飞檐走壁纯靠自学,表情丰富还会合作,姚班学霸吴翼参与

此外,大规模训练效果显著。增加批量大小可以大大加快收敛速度,并且不会对样本效率产生太大的影响。

这样训练出来的AI,到底鲁棒不鲁棒呢?

光说不练假把式,不如来一套智力测试练练手。

OpenAI的研究人员设计了一套涵盖五个基准智力测试的考题,主要分为两个领域:认知和记忆。

推荐阅读