想效仿英伟达50分钟训练 BERT?只有GPU还不够……( 二 )
图 2 是该模型的示意图:
图1/10
图 2:GPT-2 Transformer 架构。紫色矩形块表示全连接层,每个蓝色矩形块表示一个 transformer 层(重复 N 次)。
整个应用可保持 15.1 PetaFLOPs/秒的性能、76% 的扩展效率,而强大的单处理器基线方法仅能维持 39 TeraFLOPs/秒的性能,是峰值 FLOPs 的 30%。在 174GB 文本数据上训练该模型,则需以 12 ZettaFLOPs 训练 9.2 天方可实现收敛。将该语言模型应用于 WikiText103 和 LAMBADA 数据集均可实现当前最优结果:它在 WikiText103 数据集上的困惑度达到 10.8,而之前 SOTA 的困惑度为 16.4;它在 LAMBADA 数据集上的准确率可达 66.5%,而之前 SOTA 的准确率为 63.2%。目前,英伟达研究人员已经公开训练和评估代码,以及小型可移植模型的权重。
论文地址:https://arxiv.org/abs/1909.08053v1
代码地址:https://github.com/NVIDIA/Megatron-LM
推荐阅读
- 虎牙|LOLM阿克尚上线,虎牙皓月月开创其打野玩法,主播职业纷纷效仿!
- 亚瑟|国服亚瑟直言要致敬北慕,弹幕炸裂要告状北慕!这玩法在效仿德华
- estar|eStar首发清融迎战GK,诺言和Alan后续都会出场,SK要效仿月光?
- 仙剑奇侠传七|英伟达公布最新支持DLSS游戏:《仙剑7》性能表现强势
- dota2|DOTA2:50分钟猴子还是1打5,到底谁的锅?
- RNG|苦战50分钟!BLG终结RNG九连胜,WE腿哥指出问题所在
- 大话西游2|大话西游2:飘渺郎君早年巅峰数据曝光!至今被人效仿
- 吕布|KPL吕布携带“小黄刀”火了,被路人局玩家效仿,但是效果并不好
- 女主播|斗鱼女主播将效仿日本女星拍片 预告在公交车上为大家奉献才艺
- 迷你世界|效仿我的世界?迷你世界有光影却不启用,背后原因太真实