如何将深度学习训练速度提升一百倍？PAISoar 来了(13)

2019-06-12

经过 num_devices - 1 轮后，每个 device 上都有一个 tensor 分片进得到了这个分片各个 device 上的和。

AllGather 阶段：

经过 num_devices - 1 轮后，每个 device 上都每个 tensor 分片都得到了这个分片各个 device 上的和；由上例可以看出，一次 Ring Allreduce 中单个节点总的通信数据量是

每个节点上通信数据量的上限不会随分布式规模变大而变大。

在 PaiSoar 中，我们基于 Tensorflow 原生的通信原语 Rendezvous 实现 Ring AllReduce 算法，并提供简化用户构建分布式 TF 模型训练的

ReplicatedVarsOptimizer 接口（用户文档），核心功能如下：

简单的用户接口：只需开启 PAISoar 之后将原有的 Optimizer 包装为 ReplicatedVarsOptimizer ，即可将单机模型改成分布式模型，不需要修改太多的代码；
- 上一页
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 下一页
推荐阅读

上一篇：江西湖北将迎来国家级高铁，预计2020通车，沿途有你的家乡吗

下一篇：福建发展最快的城市：不是泉州也不是宁德，赶超三明，比肩龙岩！