想效仿英伟达50分钟训练 BERT？只有GPU还不够……( 六 )

2019-10-05

实验

所有实验均在英伟达 DGX SuperPod4 上实施，研究者使用了多达 32 个 DGX-2H 服务器（共 512 块 Tesla V100 SXM3 32GB GPU）。

为了测试研究中实现的可扩展性，研究人员考虑使用四种参数设置的 GPT-2 模型，如下表所示：

图6/10

表 1：可扩展性研究中所使用的参数。每个注意力头的隐藏层大小均为 96。

下图 6 展示了 model 和 model+data 并行化的扩展效率。我们可以看到，在两种设置下均出现了不错的扩展效率。

图7/10

图 6：model parallel (a) 和 model+data parallel (b) 的弱扩展效率，x 轴表示 GPU 数量。

推荐阅读

上一篇：iQOO Pro全系国庆现货！无需等待，无需抢购，让你有个愉快的假期

下一篇：机器学习教你学习语言：Duolingo推出CEFR语言检测器