如何将深度学习训练速度提升一百倍?PAISoar 来了( 九 )

图中参数说明:

  • 上面4个图分别是 Inception v3、ResNet-50、ResNet-152、VGG16 这四个模型的性能测试数据;

  • 横坐标是 GPU 卡数 , 纵坐标是模型训练总的 Images/sec;

  • ps、allreduce 分别表示模型参数同步的模式是 worker+ps 模式或 Ring AllReduce 模式;

  • grpc、rdma 分别表示通信底层使用的是 grpc 协议还是 rdma 协议 。

Tensorflow 默认的分布式方法是 worker+ps 模式 , variable 定义在 ps 上 , worker 会训练并更新 ps 上的参数 。 我们将底层通信协议替换成 RDMA 后 , 各模型性能都有提升 , 在 64GPU 卡下 , Inception v3、ResNet-50、ResNet-152、VGG16 四个模型性能分别提升:24.94%、44.83%、38.80%、23.38% 。

相较于 worker+ps 模式 , PAISoar 中提供的 Ring AllReduce 通信模式对网络带宽利用率更高 , 延迟更小 。 与 worker+ps (使用 grpc 通信)相比 , 各模型性能提升非常明显 , 在64 GPU 卡下 , Inception v3、ResNet-50、ResNet-152、VGG16四个模型性能分别提升:84.77%、125.43%、56.40%、40.04% 。

推荐阅读