如何将深度学习训练速度提升一百倍?PAISoar 来了( 八 )

  • 自研了深度优化的 Ring AllReduce 同步算法 , 通过针对 RDMA 网络的深度适配、多路通信融合等关键点优化 , 大大提升了多机的分布式训练性能 。

  • 2.1.3 API 层

    • 我们同时提供了简化用户构建分布式TF模型训练的ReplicatedVarsOptimizer , 极大的方便了将单机模型扩展成分布式模型 , 降低了用户构建分布式TF训练代码的难度和学习成本;

    • 为方便用户在分布式训练中调参 , 我们提供 lr(learning rate) 的动态调节算法smooth_exponential_decay , 算法中 , lr 经过一定轮数的 warm up , 从一个较小的 lr 平滑增加到目标 lr , 再采用指数衰退 , 每隔固定 epoch 衰退一次 , 动态调节的 lr 可以加速用户调参过程 。

    2.2 性能指标

    基于 PAISoar , 深度神经网络模型的分布式训练性能提升明显 。

    我们使用 Tensorflow 官方 Benchmarks 进行性能测试 。 Tensorflow Benchmarks 是一套 CNN 模型的基准测试集合 , 包括 Inception v3、ResNet-50、ResNet-152、VGG16、Alexnet 等经典 CNN 模型 。 下面是我们分别在1、2、4、8、16、32、64GPU卡规模下测试了 Inception v3、ResNet-50、ResNet-152、VGG16 这4个模型的性能:

    推荐阅读