拆解XLNet模型设计,回顾语言表征学习的思想演进( 十 )
上述构造技巧再加上多注意力算子 (Multi-Head Attention) 以及标准深度学习组件的组合 (Dropout, Position-Wise FeedForwrd Layer, Layer Normalization),Transformer 给自然语言处理的建模方式带来了变革性的贡献,无愧其名 "Transformer"(改革者)。
7. 去噪自编码模型/掩码语言模型
图1/6
加入 Transformer 后,我们的军火库多了建模双向语境的武器。但是如前所述,自注意力算子构建的是第 i 个词基于语境的表征,使用这个表征来预测第 i 个词会带来标签泄露。这就好比在给你出题的时候顺便直白地告诉了你答案。
我们既想用上 Transformer 的建模能力,又想从第 i 个词的表征中剔除这个词的信息。以 BERT 为代表的去噪自编码模型 (Denoising Auto-Encoder)/掩码语言模型 (Masked Language Modeling) 的做法是将这些词替换成特殊字符 "MASK"。"MASK" 对应的表征即为原来词的语境表征,既获得了双向语境的信息,又避免了标签泄露,可以用来预测原来的词。为了复用计算出的表征,BERT 会随机选取多个词替换成 "MASK",然后在对应的位置分别预测原来的词。由于这些词都被替换成相同的字符 "MASK",他们对应的语境表征计算的区别主要来自于其位置编码。
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!