如何将深度学习训练速度提升一百倍？PAISoar 来了( 九 )_阿里妹导读：得力于数据规模增长、神经

图中参数说明：

上面4个图分别是 Inception v3、ResNet-50、ResNet-152、VGG16 这四个模型的性能测试数据；
横坐标是 GPU 卡数，纵坐标是模型训练总的 Images/sec；
ps、allreduce 分别表示模型参数同步的模式是 worker+ps 模式或 Ring AllReduce 模式；
grpc、rdma 分别表示通信底层使用的是 grpc 协议还是 rdma 协议。

Tensorflow 默认的分布式方法是 worker+ps 模式， variable 定义在 ps 上， worker 会训练并更新 ps 上的参数。我们将底层通信协议替换成 RDMA 后，各模型性能都有提升，在 64GPU 卡下， Inception v3、ResNet-50、ResNet-152、VGG16 四个模型性能分别提升：24.94%、44.83%、38.80%、23.38% 。

相较于 worker+ps 模式， PAISoar 中提供的 Ring AllReduce 通信模式对网络带宽利用率更高，延迟更小。与 worker+ps (使用 grpc 通信)相比，各模型性能提升非常明显，在64 GPU 卡下， Inception v3、ResNet-50、ResNet-152、VGG16四个模型性能分别提升：84.77%、125.43%、56.40%、40.04% 。