想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 六 )

实验

所有实验均在英伟达 DGX SuperPod4 上实施,研究者使用了多达 32 个 DGX-2H 服务器(共 512 块 Tesla V100 SXM3 32GB GPU)。

为了测试研究中实现的可扩展性,研究人员考虑使用四种参数设置的 GPT-2 模型,如下表所示:

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

图6/10

表 1:可扩展性研究中所使用的参数。每个注意力头的隐藏层大小均为 96。

下图 6 展示了 model 和 model+data 并行化的扩展效率。我们可以看到,在两种设置下均出现了不错的扩展效率。

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

图7/10

图 6:model parallel (a) 和 model+data parallel (b) 的弱扩展效率,x 轴表示 GPU 数量。

推荐阅读