华为开源预训练语言模型「哪吒」:编码、掩码升级,提升多项中文 NLP 任务性能( 九 )
\n
LAMB 优化器则是为专为深度神经元网络的大批量同步分布训练而设计 。 尽管大小批量 DNN 训练是加快 DNN 训练速度的有效方法 , 但是如果不仔细调整学习速率的调度 , 当批量处理的大小超过某个阈值时 , 模型的性能可能会受到很大影响 。
\nLAMB 优化器则不需要手动调整学习速率 , 而是采用了一种通用的自适应策略 。 优化器通过使用非常大的批量处理大小(实验中高达 30k 以上)来加速 BERT 的训练 , 而不会导致性能损失 , 甚至在许多任务中获得最先进的性能 。 值得注意的是 , BERT 的训练时间最终从 3 天显著缩短到 76 分钟 。
\nNEZHA 实验结果 \n
实验通过对各种自然语言理解(NLU)任务进行微调来测试预训练模型的性能 , 并将 NEZHA 模型和最先进的汉语预训练语言模型:谷歌 BERT(汉语版) , BERT-WWM 以及 ERNIE 进行了对比 , 最终结果如下:
\nNEZHA 实验结果
\n可以看到 , NEZHA 在大部分情况下 , 都取得了相较更好的性能;尤其在 PD-NER 任务下 , NEZHA 最高达到了 97.87 分 。 另一个表现较亮眼的模型还有 ERNIE Baidu 2.0 , 颇有超越 NEZHA 的趋势 。 关于这个情况 , 论文中作者也解释到 , 由于实验设置或微调方法可能存在差异 , 比较可能不完全公平 , 之后其它模型新版发布后 , 他们将在相同的设置下对其进行评估并更新此报告 。
推荐阅读
- ig|UZI最新直播回复几个关键问题:加入IG,复出,训练赛?
- |我想打训练赛!Uzi表达复出渴望:我还热爱英雄联盟,还打得动
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 清融|SK:estar是谁强谁上,2位中单都有训练,但清融没给千世任何机会
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保
- fpx战队|FPX训练赛很强是真的!T1教练揭露世界赛真相:EDG要比想象中更强
- t1|Faker第四冠来了?T1教练:明年必夺冠,EDG训练赛最强
- dota2|LEC赛区全军覆没,C9教练吐槽赛制:LCK战队不和LEC打训练赛!
- 曹志顺|hero双子星回归?久诚与最初首发,麟羽透露训练赛已“无敌”
- t1|半决赛揭幕战倒计时,两位T1老将懈怠训练,Khan全力以赴