如何将深度学习训练速度提升一百倍?PAISoar 来了( 五 )

  • 分布式扩展后 , 模型需要精细调参才能收敛 , 需要用户有丰富的调参经验 。

  • 对此 , 我们基于 PAI Tensorflow 研发了针对于深度学习模型的高速分布式训练框架 PAISoar , 从硬件到软件打造一套分布式训练场景 E2E 的解决方案:

    1. 在硬件上 , 我们和 AIS 网络团队一起搭建了集团内部第一套基于 RoCE 的大规模 RDMA 集群 , 并针对于深度学习场景进行了相应的参数调优 , 支持低延迟、高吞吐的无损传输网络;

    2. 在软件上 , 我们基于 Ring AllReduce 算法在 RDMA 网络上实现了高度优化的 PAISoar 分布式训练框架 , 通过软硬件一体的深度优化大大提高了多机的计算加速比;

    3. 在 API 层面 , 我们提供了简化用户构建分布式 TF 模型训练的ReplicatedVarsOptimizer , 极大地方便了将单机模型扩展成分布式模型 , 降低了用户构建分布式TF训练代码的难度 , 同时提供支持 warm up 的 learning rate 动态调节方法 , 帮助模型训练更容易的收敛 。

      推荐阅读