想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 四 )

图2/10

图 1:model parallel(蓝色)和 model+data parallel(绿色)的 FLOPS 性能,x 轴为 GPU 数量。

model parallel(蓝色):8-way 模型并行,每个 GPU 使用约 10 亿参数进行弱扩展(如 2 个 GPU 20 亿,4 个 GPU 40 亿)。model+data parallel(绿色):与 model parallel 配置类似,不过它还要加上 64-way 数据并行。

研究者在 WikiText103 数据集和 LAMBADA 数据集上分析了该研究训练模型的准确率,发现随着模型规模的增大,模型在 WikiText103 数据集上的困惑度有所下降,在 LAMBADA 数据集上的准确率有所上升,并在这些任务上达到了当前最优结果。

模型并行 transformer

研究者利用 transformer 网络的结构,仅添加几个同步基元(synchronization primitives)即创建出一个简单的模型并行化实现。他们对 transformer 中的自注意力模块和多层感知机(MLP)模块均采用了模型并行化。

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

推荐阅读