拆解XLNet模型设计,回顾语言表征学习的思想演进( 七 )
如何将目标词左右的语境 (双向语境) 同时引入建模便成为下一个需要解决的问题。一个简单的做法是分别学一个前向及后向的自回归语言模型,然后再将两个模型学出的表征合并。这便是 ELMo 里的标准做法。然而这种独立建模虽然拿到了两个方向的语境信息,但却学不出两个语境间细致的依赖关系。
6. Transformer
双向语境的建模困难主要源于循环神经网络单向、顺序的计算方式。除了限制依赖关系的方向之外,这种计算方式也限制了循环神经网络能建模的最大依赖距离。x 和 x 的间依赖关系需要通过重复计算 300 次
才能求得。而由于循环神经网络中存在矩阵乘法,在计算 x 时 x 的信息被相同的矩阵乘了 300 次。视矩阵 W 的模不同,会导致信息的爆炸 (|W|>1) 或者消失 (|W|
我们既要取得双向依赖建模,又要让长距离的依赖中间间隔的计算操作尽可能的少。Transformer 的提出实现了这两个目的。细节如层归一化 (Layer Normalization),多注意力算子 (Multi-Head Attention) 可以参考原论文,这里主要介绍最核心的自注意力算子 (Self-Attention),及其基础 -- 注意力算子 (Attention)。
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!