Huskarl 最近进展:已支持与 OpenAI Gym 环境无缝结合!( 四 )

Huskarl DQN 智能体学习平衡 cartpole(完整动态图点击原文链接查看)

目前 Huskarl 支持的一些算法可以在三类可调智能体上运行 。

第一类是 DQN 智能体 , 它可以实现深度 Q 学习(https://arxiv.org/abs/1509.06461)以及多种增强功能 , 例如:可变步长跟踪(variable-step traces)、双 DQN 和可调整的对抗架构(dueling architecture) 。 DQN 是一种非策略算法 , 我们的实现默认使用优先经验回放(Prioritized experience replay) 。 DQN 智能体主要处理离散动作空间的问题 。

第二类是 A2C 智能体 , 它采用了同步、多步的「优势动作-评论」(Advantage Actor-Critic)模型 , 这是一种基于策略的算法 。 (有关 A2C 与 A3C 之间差异的更多信息 , 可参阅此博客文章 https://openai.com/blog/baselines-acktr-a2c/)Huskarl 允许像 A2C 这样基于策略的算法轻松地同时从多个环境实例中获取经验数据 , 这有助于数据的整理过程变得更加稳定 , 从而更利于学习 。

第三类是 DDPG 智能体 , 它采用了变步长跟踪的深度确定性策略梯度(Deep Deterministic Policy Gradient)算法 , 同时在默认情况下也使用优先经验回放 。 DDPG 智能体专用于处理连续动作空间的问题 。

推荐阅读