Huskarl 最近进展:已支持与 OpenAI Gym 环境无缝结合!( 七 )
Huskarl 支持算法列表
未来计划
我们计划加入更新颖的深度强化学习算法 , 例如近端策略优化算法(PPO , Proximal Policy Optimization) , 柔性致动/评价算法(SAC , Soft Actor-Critic)和双延迟深度确定性策略梯度(TD3 , Twin Delayed Deep Deterministic Policy Gradient) 。
此外 , 我们还计划引入内在的奖励方法 , 如好奇心方法(curiosity)和赋权方法(empowerment) 。 其目的是希望用户能够更轻松地交换和组合深度强化学习算法中的不同组件 , 例如经验回放、辅助奖励以及像堆叠乐高积木一样的智能体任务 。 同时 , 我们还计划在未来开源多智能体环境和 Unity3D 环境 。
推荐阅读
- RNG|MLXG透露起诉RNG公会进展,没任何商量余地,承诺以后会认真直播
- 上古卷轴6|B社文件夹进展! 老滚6要2026年后辐射5已有大纲
- 美颜|斗鱼一姐阿冷最近消息 直播不小心关了美颜秒变“照骗”
- 剑齿虎|CF:没属性的剑齿虎不够过瘾?永久的剑齿虎-X来了
- vr游戏|PS+11月会免游戏公布,会免游戏持续不行,最近操作有点迷
- ZARD|Dota2-Zard透露“刀塔拯救计划”进展:预计下个月就能做出来了!
- 地下城与勇士|DNF:“17w玉玺案”又出新进展!“骗子”9w卖出后,却被强行扣下
- 中单|为何果子哥最近舆论变好?网友调侃:三大混子,他是最强的那个
- 勇者斗恶龙10离线版|为何果子哥最近舆论变好?网友调侃:三大混子,他是最强的那个
- RNG|一招让你记住英雄联盟的英雄名字名字