DeepMind的AI击败了星际争霸顶级玩家

很多文章的报道都是由微观而宏观，今日小编讲给大家带来的关于DeepMind的AI击败了星际争霸顶级玩家的资讯也不例外，希翼可以在一定的程度上开阔你们的视野！y有对DeepMind的AI击败了星际争霸顶级玩家这篇文章感兴趣的小伙伴可以一起来看看
【DeepMind的AI击败了星际争霸顶级玩家】DeepMind的AlphaStar AI程序最近以5-0击败了两名顶级职业星际争霸玩家。

文章插图
DeepMind团队撰写了有关他们玩StarCraft II的 AI程序AlphaStar的文章。AI程序玩了两个不同的高级职业玩家，将5场比赛都输给了0 。尽管自2009年以来研究人员向来在开辟AI来玩StarCraft，但在与人类玩家的年度比赛中，“ [甚至]目前最强大的机器人都在业余人类上玩水平。”

文章插图
出于许多原因，教授AI程序来玩实时策略(RTS)游戏具有挑战性。首先，与经典战略游戏(如国际象棋或围棋)不同，玩家无法随时看到整个游戏的状态。动作的效果可能不会在很长一段时间内得到回报，并且玩家必须实时延续动作，而不是交替交替地进行单个动作。而且，游戏的动作空间更大：“星际争霸”游戏可以包含数十座建造物和数百个单位，可以按层次进行分组和操纵，而不是少数几个可以明确定义的合法动作的“碎片” 。
2017年，DeepMind在博客中与StarCraft的创造商暴雪娱乐(Blizzard Entertainment)建立了合作伙伴关系，以开辟用于玩游戏的AI 。DeepMind开源PySC(一种环绕Blizzard的StarCraft II API的Python包装器)，是他们研究工作的一部分。最新的公告是他们工作成果的更新。

文章插图
AlphaStar使用深度神经网络来操纵其行为。网络的输入是来自游戏界面的数据，输出是游戏的命令。尽管尚未公布完整的技术细节，但该博客确实指出，该网络由“到单元的躯干躯干(类似于关系型深度强化学习)，结合了深层的LSTM核心，具有功能的自回归策略负责人组成。指针网络和集中的[sic]值基准。”
该网络首先通过监督学习在人类玩家之间公开可用的示例游戏中进行训练。然后，使用该网络或代理的副本来创建多代理“联盟” 。他们互相对抗，并使用强化学习(RL)技术改进了比赛。随着时间的流逝，特工被冻结，他们的新副本被添加到联赛中以供RL改进。通过这种方式，系统可以通过训练来自旧副本的新代理来探究新策略，同时通过使学习过它们的代理保持不变来“记住”先前学习的策略。为了训练联盟， DeepMind构建了一个分布式系统，该系统在Google的v3 TPU上运行了14天，每个代理使用16个TPU 。比赛中使用的最终特工由联盟中特工的“最有效的策略组合”组成。