拆解XLNet模型设计,回顾语言表征学习的思想演进(16)
计算 g^l 时用到了 h^,表示第 l-1 层除了第 1 个词外所有词的表征,这是为了保证标签不泄露;计算 h^ 时用到了 h{:}^,表示第 l-1 层所有词的表征,这和标准的 Transformer 计算表征的过程一致。
图3/6
但上述做法在堆叠多层自注意算子时仍然会带来标签泄露。
虽然计算 g^ 时我们已经采取措施防止 h^ 的信息泄露到 g^ 中,但是考虑两层自注意力算子的计算:
我们看到第 l-2 层第 1 个词的表征 h^ 会通过第 l-1 层的所有表征 h^ 泄露给 g^。
和将 Transformer 应用到自回归语言模型的情况类似,我们还需要对每层的注意力使用注意力掩码 (Attention Mask),根据选定的分解排列 z,将不合理的注意力权重置零。我们记 z 为分解排列中的第 t 个词,那我们在词 z 的表征时,g^ 和 h^ 分别只能看到排列中前 t-1 个词 z 和前 t 个词 z,即
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!