想效仿英伟达50分钟训练 BERT?只有GPU还不够……
选自arXiv
作者:Mohammad Shoeybi 等
机器之心编译
参与:魔王
此前,机器之心曾经介绍过英伟达的一项研究,打破了 NLP 领域的三项记录:将 BERT 的训练时间缩短到了 53 分钟;将 BERT 的推理时间缩短到了 2.2 毫秒;将 GPT-2 的参数量推向 80 亿(之前 GPT-2 最大为 15 亿参数量)。很多人将此成绩归结为英伟达的优越硬件条件,反正 GPU 有的是。其实不然,英伟达近期的一篇论文公布了该研究中采用的模型并行化方法:层内模型并行化。该方法无需新的编译器或库更改,只需在 PyTorch 中嵌入几个通信操作即可完整实现。
近期关于无监督语言建模的研究证明,训练大型神经语言模型推动了自然语言处理应用中的 SOTA 结果。但是,对于非常大的模型而言,内存限制了实际训练的模型大小。模型并行化使得我们能够训练更大的模型,因为模型并行化可以将参数分割并分配至多个处理器。
英伟达在近期的一项研究中实现了一种简单高效的层内模型并行化方法,可以训练具备数十亿参数的当前最优 transformer 语言模型。该方法无需新的编译器或库更改,它与 pipeline 模型并行正交且互补,只需在 PyTorch 中嵌入几个通信操作即可完整实现。利用该方法,研究者使用 512 个 GPU 收敛了一个具备 83 亿参数的 transformer 语言模型,该模型是目前最大的 transformer 模型,其规模是 BERT 的 24 倍,GPT-2 的 5.6 倍。
推荐阅读
- 虎牙|LOLM阿克尚上线,虎牙皓月月开创其打野玩法,主播职业纷纷效仿!
- 亚瑟|国服亚瑟直言要致敬北慕,弹幕炸裂要告状北慕!这玩法在效仿德华
- estar|eStar首发清融迎战GK,诺言和Alan后续都会出场,SK要效仿月光?
- 仙剑奇侠传七|英伟达公布最新支持DLSS游戏:《仙剑7》性能表现强势
- dota2|DOTA2:50分钟猴子还是1打5,到底谁的锅?
- RNG|苦战50分钟!BLG终结RNG九连胜,WE腿哥指出问题所在
- 大话西游2|大话西游2:飘渺郎君早年巅峰数据曝光!至今被人效仿
- 吕布|KPL吕布携带“小黄刀”火了,被路人局玩家效仿,但是效果并不好
- 女主播|斗鱼女主播将效仿日本女星拍片 预告在公交车上为大家奉献才艺
- 迷你世界|效仿我的世界?迷你世界有光影却不启用,背后原因太真实