Huskarl 最近进展:已支持与 OpenAI Gym 环境无缝结合!( 六 )
但如果在某些简单环境中 , 如 cartpole 环境 , 强行使用多个进程并行会因进程间通信成本增大而减慢训练速度 。 因此 , 只有在计算成本较高的环境下 , 这种多进程并行才能发挥有利的作用 。
所有可运行的智能体都会依赖于每个问题规范 , 因此 , 其使用的神经网络由用户提供 。 这些神经网络是多样化的(简单、浅显、复杂、富有深度均可) 。 智能体通常会在内部向所提供的神经网络添加一个或多个层 , 以便正确地执行它们的预期功能 。 此外 , 所有算法都充分利用了自定义 Keras 损失 , 使其运行能够尽可能快速与简洁 。 目前我们有三个示例(每个智能体一个) , 这些示例使用了微小的、完全连接的网络来展示智能体的功能 , 甚至是使用简单模型 , 结果也不会改变 。
目前 , Huskarl 支持 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic)、DDPG(Deep Deterministic Policy Gradient)等算法 , PPO(Proximal Policy Optimization)、Curiosity-Driven Exploration 等算法仍在计划中 。
推荐阅读
- RNG|MLXG透露起诉RNG公会进展,没任何商量余地,承诺以后会认真直播
- 上古卷轴6|B社文件夹进展! 老滚6要2026年后辐射5已有大纲
- 美颜|斗鱼一姐阿冷最近消息 直播不小心关了美颜秒变“照骗”
- 剑齿虎|CF:没属性的剑齿虎不够过瘾?永久的剑齿虎-X来了
- vr游戏|PS+11月会免游戏公布,会免游戏持续不行,最近操作有点迷
- ZARD|Dota2-Zard透露“刀塔拯救计划”进展:预计下个月就能做出来了!
- 地下城与勇士|DNF:“17w玉玺案”又出新进展!“骗子”9w卖出后,却被强行扣下
- 中单|为何果子哥最近舆论变好?网友调侃:三大混子,他是最强的那个
- 勇者斗恶龙10离线版|为何果子哥最近舆论变好?网友调侃:三大混子,他是最强的那个
- RNG|一招让你记住英雄联盟的英雄名字名字