如何将深度学习训练速度提升一百倍？PAISoar 来了( 五 )

2019-06-12

分布式扩展后，模型需要精细调参才能收敛，需要用户有丰富的调参经验。

对此，我们基于 PAI Tensorflow 研发了针对于深度学习模型的高速分布式训练框架 PAISoar ，从硬件到软件打造一套分布式训练场景 E2E 的解决方案：

在硬件上，我们和 AIS 网络团队一起搭建了集团内部第一套基于 RoCE 的大规模 RDMA 集群，并针对于深度学习场景进行了相应的参数调优，支持低延迟、高吞吐的无损传输网络；
在软件上，我们基于 Ring AllReduce 算法在 RDMA 网络上实现了高度优化的 PAISoar 分布式训练框架，通过软硬件一体的深度优化大大提高了多机的计算加速比；
在 API 层面，我们提供了简化用户构建分布式 TF 模型训练的ReplicatedVarsOptimizer ，极大地方便了将单机模型扩展成分布式模型，降低了用户构建分布式TF训练代码的难度，同时提供支持 warm up 的 learning rate 动态调节方法，帮助模型训练更容易的收敛。
- 上一页
- 1
- 2
- 3
- 4
- 5
- 6
- 下一页
推荐阅读

上一篇：江西湖北将迎来国家级高铁，预计2020通车，沿途有你的家乡吗

下一篇：福建发展最快的城市：不是泉州也不是宁德，赶超三明，比肩龙岩！