想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 七 )

为了研究模型并行扩展中注意力头的作用,研究人员考虑使用 8-way 模型并行来处理 83 亿参数,并将注意力头的数量设置为 16、24、32。结果如下表 2 所示:

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

图8/10

表 2:使用 8-way 模型并行处理 83 亿参数时,注意力头数量的作用。

该研究中的模型并行化旨在在单个 GPU 上训练超出其内存承载的模型,以及在不增加批大小的情况下加速小模型的训练。为了衡量加速效果,研究人员使用固定的 12 亿参数训练模型,结果见下表 3:

想效仿英伟达50分钟训练 BERT?只有GPU还不够……

图9/10

表 3:使用模型并行化训练 12 亿参数模型得到的加速(批大小保持不变)。

为了证明大型语言模型对 SOTA 结果的推动作用,图 7 展示了模型在验证集上的困惑度,x 轴表示迭代数。

推荐阅读