Huskarl 最近进展:已支持与 OpenAI Gym 环境无缝结合!( 六 )

但如果在某些简单环境中 , 如 cartpole 环境 , 强行使用多个进程并行会因进程间通信成本增大而减慢训练速度 。 因此 , 只有在计算成本较高的环境下 , 这种多进程并行才能发挥有利的作用 。

所有可运行的智能体都会依赖于每个问题规范 , 因此 , 其使用的神经网络由用户提供 。 这些神经网络是多样化的(简单、浅显、复杂、富有深度均可) 。 智能体通常会在内部向所提供的神经网络添加一个或多个层 , 以便正确地执行它们的预期功能 。 此外 , 所有算法都充分利用了自定义 Keras 损失 , 使其运行能够尽可能快速与简洁 。 目前我们有三个示例(每个智能体一个) , 这些示例使用了微小的、完全连接的网络来展示智能体的功能 , 甚至是使用简单模型 , 结果也不会改变 。

目前 , Huskarl 支持 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic)、DDPG(Deep Deterministic Policy Gradient)等算法 , PPO(Proximal Policy Optimization)、Curiosity-Driven Exploration 等算法仍在计划中 。

推荐阅读