Huskarl 最近进展：已支持与 OpenAI Gym 环境无缝结合！( 四 )_雷锋网AI科技评论按：近日

Huskarl DQN 智能体学习平衡 cartpole（完整动态图点击原文链接查看）

目前 Huskarl 支持的一些算法可以在三类可调智能体上运行。

第一类是 DQN 智能体，它可以实现深度 Q 学习（https://arxiv.org/abs/1509.06461）以及多种增强功能，例如：可变步长跟踪（variable-step traces）、双 DQN 和可调整的对抗架构（dueling architecture）。 DQN 是一种非策略算法，我们的实现默认使用优先经验回放（Prioritized experience replay）。 DQN 智能体主要处理离散动作空间的问题。

第二类是 A2C 智能体，它采用了同步、多步的「优势动作-评论」（Advantage Actor-Critic）模型，这是一种基于策略的算法。（有关 A2C 与 A3C 之间差异的更多信息，可参阅此博客文章 https://openai.com/blog/baselines-acktr-a2c/）Huskarl 允许像 A2C 这样基于策略的算法轻松地同时从多个环境实例中获取经验数据，这有助于数据的整理过程变得更加稳定，从而更利于学习。

第三类是 DDPG 智能体，它采用了变步长跟踪的深度确定性策略梯度（Deep Deterministic Policy Gradient）算法，同时在默认情况下也使用优先经验回放。 DDPG 智能体专用于处理连续动作空间的问题。