如何将深度学习训练速度提升一百倍?PAISoar 来了(13)

经过 num_devices - 1 轮后 , 每个 device 上都有一个 tensor 分片进得到了这个分片各个 device 上的和 。

AllGather 阶段:

经过 num_devices - 1 轮后 , 每个 device 上都每个 tensor 分片都得到了这个分片各个 device 上的和;由上例可以看出 , 一次 Ring Allreduce 中单个节点总的通信数据量是

每个节点上通信数据量的上限不会随分布式规模变大而变大 。

在 PaiSoar 中 , 我们基于 Tensorflow 原生的通信原语 Rendezvous 实现 Ring AllReduce 算法 , 并提供简化用户构建分布式 TF 模型训练的

ReplicatedVarsOptimizer 接口(用户文档) , 核心功能如下: