华为开源预训练语言模型「哪吒」:编码、掩码升级,提升多项中文 NLP 任务性能( 八 )
\n
而 NEZHA 预训练模型 , 则采用了全词覆盖(WWM)策略 , 当一个汉字被覆盖时 , 属于同一个汉字的其他汉字都被一起覆盖 。 该策略被证明比 BERT 中的随机覆盖训练(即每个符号或汉字都被随机屏蔽)更有效 。
\nBERT 中的随机覆盖
\n在 NEZHA 的 WWM 实现中 , 研究者使用了一个标记化工具 Jieba2 进行中文分词(即寻找中文单词的边界) 。 在 WWM 训练数据中 , 每个样本包含多个覆盖汉字 , 覆盖汉字的总数约占其长度的 12% , 随机替换的占 1.5% , 尽管这样预测整个词运算难度有所增加 , 但最终取得的效果更好 。
\n三、混合精度训练及 LAMB 优化器
\n在 NEZHA 模型的预训练中 , 研究者采用了混合精度训练技术 。 该技术可以使训练速度提高 2-3 倍 , 同时也减少了模型的空间消耗 , 从而可以利用较大的批量 。
\n传统的深度神经网络训练使用 FP32(即单精度浮点格式)来表示训练中涉及的所有变量(包括模型参数和梯度);而混合精度训练在训练中采用了多精度 。 具体而言 , 它重点保证模型中权重的单精度副本(称为主权重) , 即在每次训练迭代中 , 将主权值舍入 FP16(即半精度浮点格式) , 并使用 FP16 格式存储的权值、激活和梯度执行向前和向后传递;最后将梯度转换为 FP32 格式 , 并使用 FP32 梯度更新主权重 。
推荐阅读
- ig|UZI最新直播回复几个关键问题:加入IG,复出,训练赛?
- |我想打训练赛!Uzi表达复出渴望:我还热爱英雄联盟,还打得动
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 清融|SK:estar是谁强谁上,2位中单都有训练,但清融没给千世任何机会
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保
- fpx战队|FPX训练赛很强是真的!T1教练揭露世界赛真相:EDG要比想象中更强
- t1|Faker第四冠来了?T1教练:明年必夺冠,EDG训练赛最强
- dota2|LEC赛区全军覆没,C9教练吐槽赛制:LCK战队不和LEC打训练赛!
- 曹志顺|hero双子星回归?久诚与最初首发,麟羽透露训练赛已“无敌”
- t1|半决赛揭幕战倒计时,两位T1老将懈怠训练,Khan全力以赴