想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 七 )
为了研究模型并行扩展中注意力头的作用,研究人员考虑使用 8-way 模型并行来处理 83 亿参数,并将注意力头的数量设置为 16、24、32。结果如下表 2 所示:
图8/10
表 2:使用 8-way 模型并行处理 83 亿参数时,注意力头数量的作用。
该研究中的模型并行化旨在在单个 GPU 上训练超出其内存承载的模型,以及在不增加批大小的情况下加速小模型的训练。为了衡量加速效果,研究人员使用固定的 12 亿参数训练模型,结果见下表 3:
图9/10
表 3:使用模型并行化训练 12 亿参数模型得到的加速(批大小保持不变)。
为了证明大型语言模型对 SOTA 结果的推动作用,图 7 展示了模型在验证集上的困惑度,x 轴表示迭代数。
推荐阅读
- 虎牙|LOLM阿克尚上线,虎牙皓月月开创其打野玩法,主播职业纷纷效仿!
- 亚瑟|国服亚瑟直言要致敬北慕,弹幕炸裂要告状北慕!这玩法在效仿德华
- estar|eStar首发清融迎战GK,诺言和Alan后续都会出场,SK要效仿月光?
- 仙剑奇侠传七|英伟达公布最新支持DLSS游戏:《仙剑7》性能表现强势
- dota2|DOTA2:50分钟猴子还是1打5,到底谁的锅?
- RNG|苦战50分钟!BLG终结RNG九连胜,WE腿哥指出问题所在
- 大话西游2|大话西游2:飘渺郎君早年巅峰数据曝光!至今被人效仿
- 吕布|KPL吕布携带“小黄刀”火了,被路人局玩家效仿,但是效果并不好
- 女主播|斗鱼女主播将效仿日本女星拍片 预告在公交车上为大家奉献才艺
- 迷你世界|效仿我的世界?迷你世界有光影却不启用,背后原因太真实