想效仿英伟达50分钟训练 BERT？只有GPU还不够……( 二 )_选自arXiv作者：MohammadShoeybi等机器

图 2 是该模型的示意图：

图1/10

图 2：GPT-2 Transformer 架构。紫色矩形块表示全连接层，每个蓝色矩形块表示一个 transformer 层（重复 N 次）。

整个应用可保持 15.1 PetaFLOPs/秒的性能、76% 的扩展效率，而强大的单处理器基线方法仅能维持 39 TeraFLOPs/秒的性能，是峰值 FLOPs 的 30%。在 174GB 文本数据上训练该模型，则需以 12 ZettaFLOPs 训练 9.2 天方可实现收敛。将该语言模型应用于 WikiText103 和 LAMBADA 数据集均可实现当前最优结果：它在 WikiText103 数据集上的困惑度达到 10.8，而之前 SOTA 的困惑度为 16.4；它在 LAMBADA 数据集上的准确率可达 66.5%，而之前 SOTA 的准确率为 63.2%。目前，英伟达研究人员已经公开训练和评估代码，以及小型可移植模型的权重。

论文地址：https://arxiv.org/abs/1909.08053v1

代码地址：https://github.com/NVIDIA/Megatron-LM