华为开源预训练语言模型「哪吒」:编码、掩码升级,提升多项中文 NLP 任务性能( 五 )
图中列出了 BERT、GPT、XLNet、ERNIE 等模型以及它们之间的关系 , 并拟出了一份相关的论文列表 。 列表把预训练模型主要分为了三个部分 , 包括:模型、知识蒸馏与模型压缩 。 按照这样的分类 , TinyBERT 模型则可以归类为「知识蒸馏与模型压缩」部分;NEZHA 则归为「模型」部分 。
\n而根据研究结果显示 , 近年来的模型大多将重心落到了数据与算力部分 。 与早期的 ResNet(视觉模型)模型参数相比 , 数据显示 GPT1 为 100M , BERT large 为 340M , GPT2 为 1.5BN , GPT-2 8B 为 8.3BN 。
\n预训练语言模型研究结果
\n因此 , 在预训练模型开发过程中 , 华为诺亚方舟研究者提出了一种为基于 transformer 的模型设计的知识蒸馏方法——压缩 BERT 模型 TinyBERT;该模型大小不到 BERT 的 1/7 , 但速度是 BERT 的 9 倍多 。
\n而在模型方面 , 他们选择在内部重现了 Google Bert-base 和 Bert-large 的实验;利用 BERT 的代码 , 实现了 OpenAI GPT-2 模型;实现基于 GPU 多卡多机并行训练 , 并且对训练过程进行了优化 , 提高训练效率 , 最终得到了「多中文 NLP 任务」预训练模型 NEZHA 。
推荐阅读
- ig|UZI最新直播回复几个关键问题:加入IG,复出,训练赛?
- |我想打训练赛!Uzi表达复出渴望:我还热爱英雄联盟,还打得动
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 清融|SK:estar是谁强谁上,2位中单都有训练,但清融没给千世任何机会
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保
- fpx战队|FPX训练赛很强是真的!T1教练揭露世界赛真相:EDG要比想象中更强
- t1|Faker第四冠来了?T1教练:明年必夺冠,EDG训练赛最强
- dota2|LEC赛区全军覆没,C9教练吐槽赛制:LCK战队不和LEC打训练赛!
- 曹志顺|hero双子星回归?久诚与最初首发,麟羽透露训练赛已“无敌”
- t1|半决赛揭幕战倒计时,两位T1老将懈怠训练,Khan全力以赴