想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 二 )

图 2 是该模型的示意图:

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

图1/10

图 2:GPT-2 Transformer 架构。紫色矩形块表示全连接层,每个蓝色矩形块表示一个 transformer 层(重复 N 次)。

整个应用可保持 15.1 PetaFLOPs/秒的性能、76% 的扩展效率,而强大的单处理器基线方法仅能维持 39 TeraFLOPs/秒的性能,是峰值 FLOPs 的 30%。在 174GB 文本数据上训练该模型,则需以 12 ZettaFLOPs 训练 9.2 天方可实现收敛。将该语言模型应用于 WikiText103 和 LAMBADA 数据集均可实现当前最优结果:它在 WikiText103 数据集上的困惑度达到 10.8,而之前 SOTA 的困惑度为 16.4;它在 LAMBADA 数据集上的准确率可达 66.5%,而之前 SOTA 的准确率为 63.2%。目前,英伟达研究人员已经公开训练和评估代码,以及小型可移植模型的权重。

论文地址:https://arxiv.org/abs/1909.08053v1

代码地址:https://github.com/NVIDIA/Megatron-LM

推荐阅读