拆解XLNet模型设计,回顾语言表征学习的思想演进(18)
图4/6
如上图所示,由于计算第 l 层的表征时,使用的第 l-1 层的表征同时来自于片段 s 和 s,所以每增加一层,模型建模的依赖关系长度就能增加 N。在上图中,Transformer-XL 建模的最长依赖关系为 3*2=6。
但这又会引入新的问题。Transformer 的位置编码 (Position eEmbedding) 是绝对位置编码 (Absolute Position Embedding),即每个片段内,各个位置都有其独立的一个位置编码向量。所以片段 s 第一个词和片段 s 第一个词共享同样的位置编码 -- 这会带来歧义。
Transformer-XL 引入了更加优雅的相对位置编码 (Relative Position Embedding)。
因为位置编码只在自注意力算子中起作用,我们将 Transformer 的自注意力权重的计算拆解成:
我们可以将其中的绝对位置编码 p 的计算替换成相对位置编码 r,把 p 替换成一个固定的向量 (认为位置 i 是相对位置的原点)。这样便得到相对位置编码下的注意力权重:
Transformer-XL 的实际实现方式与上式有所不同,但思想是类似的。
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!