Huskarl 最近进展:已支持与 OpenAI Gym 环境无缝结合!( 四 )
Huskarl DQN 智能体学习平衡 cartpole(完整动态图点击原文链接查看)
目前 Huskarl 支持的一些算法可以在三类可调智能体上运行 。
第一类是 DQN 智能体 , 它可以实现深度 Q 学习(https://arxiv.org/abs/1509.06461)以及多种增强功能 , 例如:可变步长跟踪(variable-step traces)、双 DQN 和可调整的对抗架构(dueling architecture) 。 DQN 是一种非策略算法 , 我们的实现默认使用优先经验回放(Prioritized experience replay) 。 DQN 智能体主要处理离散动作空间的问题 。
第二类是 A2C 智能体 , 它采用了同步、多步的「优势动作-评论」(Advantage Actor-Critic)模型 , 这是一种基于策略的算法 。 (有关 A2C 与 A3C 之间差异的更多信息 , 可参阅此博客文章 https://openai.com/blog/baselines-acktr-a2c/)Huskarl 允许像 A2C 这样基于策略的算法轻松地同时从多个环境实例中获取经验数据 , 这有助于数据的整理过程变得更加稳定 , 从而更利于学习 。
第三类是 DDPG 智能体 , 它采用了变步长跟踪的深度确定性策略梯度(Deep Deterministic Policy Gradient)算法 , 同时在默认情况下也使用优先经验回放 。 DDPG 智能体专用于处理连续动作空间的问题 。
推荐阅读
- RNG|MLXG透露起诉RNG公会进展,没任何商量余地,承诺以后会认真直播
- 上古卷轴6|B社文件夹进展! 老滚6要2026年后辐射5已有大纲
- 美颜|斗鱼一姐阿冷最近消息 直播不小心关了美颜秒变“照骗”
- 剑齿虎|CF:没属性的剑齿虎不够过瘾?永久的剑齿虎-X来了
- vr游戏|PS+11月会免游戏公布,会免游戏持续不行,最近操作有点迷
- ZARD|Dota2-Zard透露“刀塔拯救计划”进展:预计下个月就能做出来了!
- 地下城与勇士|DNF:“17w玉玺案”又出新进展!“骗子”9w卖出后,却被强行扣下
- 中单|为何果子哥最近舆论变好?网友调侃:三大混子,他是最强的那个
- 勇者斗恶龙10离线版|为何果子哥最近舆论变好?网友调侃:三大混子,他是最强的那个
- RNG|一招让你记住英雄联盟的英雄名字名字