如何将深度学习训练速度提升一百倍?PAISoar 来了(17)

3.3 模型迭代

我们通过分布式训练加快了绿网模型的收敛 , 这时就可以尝试采用更复杂的神经网络结构来提高 AUC , 之前绿网模型内使用的是 Inception v3 结构 , 我们升级到 Inception v4 进行测试 , 发现 ROC 曲线提升明显:

PAISoar 的分布式加速能力让我们可以尝试使用更复杂的模型结构来提高模型效果 。

4. 总结和展望

通过与 AIS 网络团队、RDMA 项目团队的协同合作 , PAI Tensorflow 的分布式训练框架 PAISoar 成功上线 , 并和安全部在绿网模型上进行合作落地 , 取得非常好的效果 , 128 GPU卡上计算加速比达到101倍 。 期望后续能服务更多的用户 , 并为用户提供简单、高效、可靠的分布式服务 。

接下来我们会继续优化分布式训练框架 PAISoar: