想效仿英伟达50分钟训练 BERT？只有GPU还不够……( 四 )_选自arXiv作者：MohammadShoeybi等机器

图2/10

图 1：model parallel（蓝色）和 model+data parallel（绿色）的 FLOPS 性能，x 轴为 GPU 数量。

model parallel（蓝色）：8-way 模型并行，每个 GPU 使用约 10 亿参数进行弱扩展（如 2 个 GPU 20 亿，4 个 GPU 40 亿）。model+data parallel（绿色）：与 model parallel 配置类似，不过它还要加上 64-way 数据并行。

研究者在 WikiText103 数据集和 LAMBADA 数据集上分析了该研究训练模型的准确率，发现随着模型规模的增大，模型在 WikiText103 数据集上的困惑度有所下降，在 LAMBADA 数据集上的准确率有所上升，并在这些任务上达到了当前最优结果。

模型并行 transformer

研究者利用 transformer 网络的结构，仅添加几个同步基元（synchronization primitives）即创建出一个简单的模型并行化实现。他们对 transformer 中的自注意力模块和多层感知机（MLP）模块均采用了模型并行化。

想效仿英伟达50分钟训练 BERT？只有GPU还不够……( 四 )