Huskarl 最近进展:已支持与 OpenAI Gym 环境无缝结合!( 五 )

Huskarl DDPG 智能体学习提升钟摆

Huskarl 可以轻松地跨多个 CPU 内核并行计算环境动态 , 这非常很有助于如 A2C 和 PPO 这类策略性(从多个并发经验源中学习数据)算法的加速 。 首先 , 如果要同时使用多个环境实例 , 我们只需为基于策略的智能体和模拟器提供所需数量的环境实例;然后将环境实例分布在多个进程上 , 这些进程将在可用的 CPU 内核上自动并行化;之后我们只需在调用 sim.train()函数时为 max_subprocesses 参数提供所需的值即可 , 详情如下面的代码段所示 。

Huskarl 实现策略性算法加速的代码段(跳转原文可查看完整代码)

另外需要注意的是 , 为每个环境实例使用不同的策略非常简单 , 无需提供单个策略对象 , 只需提供策略列表即可 。

Huskarl A2C 智能体同时学习 16 个环境实例来平衡 cartpole 。 其中 , 较粗的蓝线表示使用贪婪的目标政策获得的奖励 , 当在其他 15 个环境中起作用时使用高斯?-贪婪(gaussian epsilon-greedy)策略 , epsilon 均值从 0 变为 1

推荐阅读