华为开源预训练语言模型「哪吒」:编码、掩码升级,提升多项中文 NLP 任务性能( 九 )

\n

LAMB 优化器则是为专为深度神经元网络的大批量同步分布训练而设计 。 尽管大小批量 DNN 训练是加快 DNN 训练速度的有效方法 , 但是如果不仔细调整学习速率的调度 , 当批量处理的大小超过某个阈值时 , 模型的性能可能会受到很大影响 。

\n

LAMB 优化器则不需要手动调整学习速率 , 而是采用了一种通用的自适应策略 。 优化器通过使用非常大的批量处理大小(实验中高达 30k 以上)来加速 BERT 的训练 , 而不会导致性能损失 , 甚至在许多任务中获得最先进的性能 。 值得注意的是 , BERT 的训练时间最终从 3 天显著缩短到 76 分钟 。

\n

NEZHA 实验结果 \n

实验通过对各种自然语言理解(NLU)任务进行微调来测试预训练模型的性能 , 并将 NEZHA 模型和最先进的汉语预训练语言模型:谷歌 BERT(汉语版) , BERT-WWM 以及 ERNIE 进行了对比 , 最终结果如下:

\n

NEZHA 实验结果

\n

可以看到 , NEZHA 在大部分情况下 , 都取得了相较更好的性能;尤其在 PD-NER 任务下 , NEZHA 最高达到了 97.87 分 。 另一个表现较亮眼的模型还有 ERNIE Baidu 2.0 , 颇有超越 NEZHA 的趋势 。 关于这个情况 , 论文中作者也解释到 , 由于实验设置或微调方法可能存在差异 , 比较可能不完全公平 , 之后其它模型新版发布后 , 他们将在相同的设置下对其进行评估并更新此报告 。

推荐阅读