Huskarl 最近进展：已支持与 OpenAI Gym 环境无缝结合！( 五 )_雷锋网AI科技评论按：近日

Huskarl DDPG 智能体学习提升钟摆

Huskarl 可以轻松地跨多个 CPU 内核并行计算环境动态，这非常很有助于如 A2C 和 PPO 这类策略性（从多个并发经验源中学习数据）算法的加速。首先，如果要同时使用多个环境实例，我们只需为基于策略的智能体和模拟器提供所需数量的环境实例；然后将环境实例分布在多个进程上，这些进程将在可用的 CPU 内核上自动并行化；之后我们只需在调用 sim.train（）函数时为 max_subprocesses 参数提供所需的值即可，详情如下面的代码段所示。

Huskarl 实现策略性算法加速的代码段（跳转原文可查看完整代码）

另外需要注意的是，为每个环境实例使用不同的策略非常简单，无需提供单个策略对象，只需提供策略列表即可。

Huskarl A2C 智能体同时学习 16 个环境实例来平衡 cartpole 。其中，较粗的蓝线表示使用贪婪的目标政策获得的奖励，当在其他 15 个环境中起作用时使用高斯?-贪婪（gaussian epsilon-greedy）策略， epsilon 均值从 0 变为 1