想效仿英伟达50分钟训练 BERT？只有GPU还不够……( 三 )_选自arXiv作者：MohammadShoeybi等机器

研究贡献

英伟达研究人员利用层内模型并行化方法高效训练具备 83 亿参数的 transformer 语言模型。他们利用 transformer 语言模型的内在结构做了一个简单的模型并行实现，该实现可在 PyTorch 中高效训练完成，且无需任何定制 C++ 代码或编译器。该方法与基于 pipeline 的模型并行化是正交的。

为了展示该方法的可扩展性，研究者建立了一个基线：他们在单个 NVIDIA V100 32GB GPU 上训练了一个具备 12 亿参数的模型，整个训练应用维持 39 TeraFLOPs/秒的性能，是单个 GPU 在 DGX-2H 服务器上运行的理论峰值 FLOPS 的 30%，因此这是一个非常强大的基线模型。将该模型扩展至 83 亿参数，并使用 8-way 模型并行化在 512 个 GPU 上进行训练，达到了 15.1 PetaFLOPs/秒的性能。与单个 GPU 的情况相比，它实现了 76% 的扩展效率。在 174 GB 文本数据上收敛该模型需要以 12 ZettaFLOPs 训练 9.2 天。

详细扩展结果见下图 1，随 GPU 数量的增加，其所提供有效计算力的增长差不多接近线性。