Huskarl 最近进展:已支持与 OpenAI Gym 环境无缝结合!( 七 )

Huskarl 支持算法列表

未来计划

我们计划加入更新颖的深度强化学习算法 , 例如近端策略优化算法(PPO , Proximal Policy Optimization) , 柔性致动/评价算法(SAC , Soft Actor-Critic)和双延迟深度确定性策略梯度(TD3 , Twin Delayed Deep Deterministic Policy Gradient) 。

此外 , 我们还计划引入内在的奖励方法 , 如好奇心方法(curiosity)和赋权方法(empowerment) 。 其目的是希望用户能够更轻松地交换和组合深度强化学习算法中的不同组件 , 例如经验回放、辅助奖励以及像堆叠乐高积木一样的智能体任务 。 同时 , 我们还计划在未来开源多智能体环境和 Unity3D 环境 。

推荐阅读