如何将深度学习训练速度提升一百倍?PAISoar 来了( 六 )

PAISoar 在 Tensorflow 官方 benchmarks 模型上取得了非常不错的加速效果 。 同时我们还和安全部团队合作 , 将该研发成果成功的在安全部图像模型业务上落地 。 安全部的绿网模型训练样本280万张图片 , 单机两卡训练需要12天才能收敛 , 因此有着非常强的分布式训练需求 , 希望能达到一天内完成训练 , 提升模型迭代能力 。 借助于 PAISoar , 绿网模型分布式训练取得非常明显的加速效果 , 模型收敛时间从原先的12天降低到目前的一天以内 , 大大加速了业务的快速迭代 。

我们用 images/sec (每秒处理的图片数或样本数)来统计分布式模型的计算能力 。

假设单 GPU 卡下计算能力为1 , 绿网模型在 PAISoar 中计算加速比如下图所示:

在 PAISoar 上 , 绿网模型在128 GPU卡上取得了101倍的计算加速比 , 效果非常明显 。

2. PAISoar:基于 PAI Tensorflow 的分布式训练框架

2.1 PAISoar简介

PAISoar 是基于 PAI Tensorflow 实现的分布式训练框架 。 通过 PAISoar , 我们提供了一个从硬件到软件、易用的分布式训练的性能优异框架 。

推荐阅读