想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 五 )

图3/10

图 3:使用模型并行化后的 Transformer 模块。f 和 g 是共轭的,f 在前向传播中是恒等算子,在反向传播中是全规约(all reduce),而 g 在前向传播中是全规约,在反向传播中是恒等算子。

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

图4/10

图 4:transformer 层中的通信操作。单个模型并行 transformer 层中的前向和反向传播中共有 4 个通信操作。

混合模型和数据并行化

模型并行与数据并行是正交的,因此我们可以同时使用二者在合理时间内训练大型模型。图 5 展示了混合模型和数据并行的 GPU 分组情况。

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

图5/10

图 5:混合模型和数据并行化在 8-way 模型并行和 64-way 数据并行时的 GPU 分组情况。

推荐阅读