华为开源预训练语言模型「哪吒」：编码、掩码升级，提升多项中文 NLP 任务性能( 五 )_作者|杨鲤萍\n编辑|唐里\n一个月前

图中列出了 BERT、GPT、XLNet、ERNIE 等模型以及它们之间的关系，并拟出了一份相关的论文列表。列表把预训练模型主要分为了三个部分，包括：模型、知识蒸馏与模型压缩。按照这样的分类， TinyBERT 模型则可以归类为「知识蒸馏与模型压缩」部分；NEZHA 则归为「模型」部分。

而根据研究结果显示，近年来的模型大多将重心落到了数据与算力部分。与早期的 ResNet（视觉模型）模型参数相比，数据显示 GPT1 为 100M ， BERT large 为 340M ， GPT2 为 1.5BN ， GPT-2 8B 为 8.3BN 。

预训练语言模型研究结果

因此，在预训练模型开发过程中，华为诺亚方舟研究者提出了一种为基于 transformer 的模型设计的知识蒸馏方法——压缩 BERT 模型 TinyBERT；该模型大小不到 BERT 的 1/7 ，但速度是 BERT 的 9 倍多。

而在模型方面，他们选择在内部重现了 Google Bert-base 和 Bert-large 的实验；利用 BERT 的代码，实现了 OpenAI GPT-2 模型；实现基于 GPU 多卡多机并行训练，并且对训练过程进行了优化，提高训练效率，最终得到了「多中文 NLP 任务」预训练模型 NEZHA 。