想效仿英伟达50分钟训练 BERT？只有GPU还不够……( 五 )

2019-10-05

图3/10

图 3：使用模型并行化后的 Transformer 模块。f 和 g 是共轭的，f 在前向传播中是恒等算子，在反向传播中是全规约（all reduce），而 g 在前向传播中是全规约，在反向传播中是恒等算子。

图4/10

图 4：transformer 层中的通信操作。单个模型并行 transformer 层中的前向和反向传播中共有 4 个通信操作。

混合模型和数据并行化

模型并行与数据并行是正交的，因此我们可以同时使用二者在合理时间内训练大型模型。图 5 展示了混合模型和数据并行的 GPU 分组情况。

图5/10

图 5：混合模型和数据并行化在 8-way 模型并行和 64-way 数据并行时的 GPU 分组情况。

推荐阅读

上一篇：iQOO Pro全系国庆现货！无需等待，无需抢购，让你有个愉快的假期

下一篇：机器学习教你学习语言：Duolingo推出CEFR语言检测器