华为开源预训练语言模型「哪吒」:编码、掩码升级,提升多项中文 NLP 任务性能( 六 )
\n
三头六臂 NEZHA(哪吒) \n
尽管这一预训练模型 NEZHA 的名称听起来有些匪夷所思 , 但它的开发者们将其视为「无所不能 , 可以解决不同任务」的寓意 。 在这个模型中 , 除了之前提到的重现、多卡多机并行训练之外 , 主要有两项改进 , 即:函数式相对位置编码与全词覆盖的实现 。
\n一、函数式相对位置编码
\n位置编码有函数式和参数式两种 , 函数式通过定义函数直接计算就可以了 。 参数式中位置编码涉及两个概念 , 一个是距离;二是维度 。 其中 , Word Embedding 一般有几百维 , 每一维各有一个值 , 一个位置编码的值正是通过位置和维度两个参数来确定 。
\nNEZHA 预训练模型则采用了函数式相对位置编码 , 其输出与注意力得分的计算涉及到他们相对位置的正弦函数 , 这一灵感正是来源于 Transformer 的绝对位置编码 , 而相对位置编码则解决了在 Transformer 中 , 每个词之间因为互不知道相隔的距离引发的一系列资源占用问题 。
\n位置编码模型
推荐阅读
- ig|UZI最新直播回复几个关键问题:加入IG,复出,训练赛?
- |我想打训练赛!Uzi表达复出渴望:我还热爱英雄联盟,还打得动
- 原神|T1再次证实FPX训练赛强,队内语音迟迟未放出,LNG也意难平!
- 清融|SK:estar是谁强谁上,2位中单都有训练,但清融没给千世任何机会
- 超级机器人大战30|猫神重新跟AG一队训练,瓜主剧透:AG若打不赢狼队,最初首发不保
- fpx战队|FPX训练赛很强是真的!T1教练揭露世界赛真相:EDG要比想象中更强
- t1|Faker第四冠来了?T1教练:明年必夺冠,EDG训练赛最强
- dota2|LEC赛区全军覆没,C9教练吐槽赛制:LCK战队不和LEC打训练赛!
- 曹志顺|hero双子星回归?久诚与最初首发,麟羽透露训练赛已“无敌”
- t1|半决赛揭幕战倒计时,两位T1老将懈怠训练,Khan全力以赴