想效仿英伟达50分钟训练 BERT？只有GPU还不够……( 七 )

2019-10-05

为了研究模型并行扩展中注意力头的作用，研究人员考虑使用 8-way 模型并行来处理 83 亿参数，并将注意力头的数量设置为 16、24、32。结果如下表 2 所示：

图8/10

表 2：使用 8-way 模型并行处理 83 亿参数时，注意力头数量的作用。

该研究中的模型并行化旨在在单个 GPU 上训练超出其内存承载的模型，以及在不增加批大小的情况下加速小模型的训练。为了衡量加速效果，研究人员使用固定的 12 亿参数训练模型，结果见下表 3：

图9/10

表 3：使用模型并行化训练 12 亿参数模型得到的加速（批大小保持不变）。

为了证明大型语言模型对 SOTA 结果的推动作用，图 7 展示了模型在验证集上的困惑度，x 轴表示迭代数。

推荐阅读

上一篇：iQOO Pro全系国庆现货！无需等待，无需抢购，让你有个愉快的假期

下一篇：机器学习教你学习语言：Duolingo推出CEFR语言检测器