想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 四 )
图2/10
图 1:model parallel(蓝色)和 model+data parallel(绿色)的 FLOPS 性能,x 轴为 GPU 数量。
model parallel(蓝色):8-way 模型并行,每个 GPU 使用约 10 亿参数进行弱扩展(如 2 个 GPU 20 亿,4 个 GPU 40 亿)。model+data parallel(绿色):与 model parallel 配置类似,不过它还要加上 64-way 数据并行。
研究者在 WikiText103 数据集和 LAMBADA 数据集上分析了该研究训练模型的准确率,发现随着模型规模的增大,模型在 WikiText103 数据集上的困惑度有所下降,在 LAMBADA 数据集上的准确率有所上升,并在这些任务上达到了当前最优结果。
模型并行 transformer
研究者利用 transformer 网络的结构,仅添加几个同步基元(synchronization primitives)即创建出一个简单的模型并行化实现。他们对 transformer 中的自注意力模块和多层感知机(MLP)模块均采用了模型并行化。
推荐阅读
- 虎牙|LOLM阿克尚上线,虎牙皓月月开创其打野玩法,主播职业纷纷效仿!
- 亚瑟|国服亚瑟直言要致敬北慕,弹幕炸裂要告状北慕!这玩法在效仿德华
- estar|eStar首发清融迎战GK,诺言和Alan后续都会出场,SK要效仿月光?
- 仙剑奇侠传七|英伟达公布最新支持DLSS游戏:《仙剑7》性能表现强势
- dota2|DOTA2:50分钟猴子还是1打5,到底谁的锅?
- RNG|苦战50分钟!BLG终结RNG九连胜,WE腿哥指出问题所在
- 大话西游2|大话西游2:飘渺郎君早年巅峰数据曝光!至今被人效仿
- 吕布|KPL吕布携带“小黄刀”火了,被路人局玩家效仿,但是效果并不好
- 女主播|斗鱼女主播将效仿日本女星拍片 预告在公交车上为大家奉献才艺
- 迷你世界|效仿我的世界?迷你世界有光影却不启用,背后原因太真实