想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 五 )
图3/10
图 3:使用模型并行化后的 Transformer 模块。f 和 g 是共轭的,f 在前向传播中是恒等算子,在反向传播中是全规约(all reduce),而 g 在前向传播中是全规约,在反向传播中是恒等算子。
图4/10
图 4:transformer 层中的通信操作。单个模型并行 transformer 层中的前向和反向传播中共有 4 个通信操作。
混合模型和数据并行化
模型并行与数据并行是正交的,因此我们可以同时使用二者在合理时间内训练大型模型。图 5 展示了混合模型和数据并行的 GPU 分组情况。
图5/10
图 5:混合模型和数据并行化在 8-way 模型并行和 64-way 数据并行时的 GPU 分组情况。
推荐阅读
- 虎牙|LOLM阿克尚上线,虎牙皓月月开创其打野玩法,主播职业纷纷效仿!
- 亚瑟|国服亚瑟直言要致敬北慕,弹幕炸裂要告状北慕!这玩法在效仿德华
- estar|eStar首发清融迎战GK,诺言和Alan后续都会出场,SK要效仿月光?
- 仙剑奇侠传七|英伟达公布最新支持DLSS游戏:《仙剑7》性能表现强势
- dota2|DOTA2:50分钟猴子还是1打5,到底谁的锅?
- RNG|苦战50分钟!BLG终结RNG九连胜,WE腿哥指出问题所在
- 大话西游2|大话西游2:飘渺郎君早年巅峰数据曝光!至今被人效仿
- 吕布|KPL吕布携带“小黄刀”火了,被路人局玩家效仿,但是效果并不好
- 女主播|斗鱼女主播将效仿日本女星拍片 预告在公交车上为大家奉献才艺
- 迷你世界|效仿我的世界?迷你世界有光影却不启用,背后原因太真实