拆解XLNet模型设计,回顾语言表征学习的思想演进(15)
在下图中记 "MASK" 对应的词向量为 G,X2 - X4 为各自的词向量,G1, H1 - H4 为各自的表征。图中省略了位置编码 p。
图2/6
上面只是讨论最简单的情况 -- 即一句话只产生一个样本。但我们还希望保证训练效率 -- 我们想和自回归语言模型一样,只进行一次整句的表征计算便可以获得所有样本的语境表征。这时所有词的表征就必须同时计算,此时便有标签泄露带来的矛盾:对于某个需要预测的目标词,我们既需要得到包含它信息以及位置的表征 h (用来进一步计算其他词的表征),又需要得到不包含它信息,只包含它位置的表征 g (用来做语境的表征)。
一个很自然的想法就是同时计算两套表征,这便是 XLNet 提出的双通道自注意力 (Two Stream Self-Attention),同时计算内容表征通道 (Content Stream) h 和语境表征通道 (Query Stream) g。注意这里采用的是意译而不是直译,请读者谅解。
假设我们要计算第 1 个词在第 l 层的语境表征 g^ 和内容表征 h^,我们只关注注意力算子查询向量 Q、地址向量 K 以及内容向量 V 的来源:
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!