拆解XLNet模型设计,回顾语言表征学习的思想演进(17)
在如此做完注意力掩码后,所有 g}^l 便可以直接用来预测词 z,而不会有标签泄露的问题。
这里我们也可以看到,在具体实现效率的限制下,想要获得多样的语境并防止标签泄露,我们只能依据乱序语言模型的定义去使用注意力掩码。这也体现了 XLNet 设计的精巧性。
10. XLNet 的重要元素:Transformer-XL
上面已经提到,和循环神经网络不同,Transformer 是同时计算语段内所有词的表征的。受限于系统内存大小,Transformer 输入的序列长度会有一个上限。通常我们会将过长的序列切成固定长度为 N 的片段,再依次输入 Transformer 计算表征。所以 Transformer 的构造虽然降低了长程依赖的学习难度,但其最长只能建模长度为 N 的依赖。
为了在内存的限制下让 Transformer 学到更长的依赖,Transformer-XL 借鉴了 TBPTT(Truncated Back-Propagation Through Time) 的思路,将上一个片段 s 计算出来的表征缓存在内存里,加入到当前片段 s 的表征计算中。
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!