拆解XLNet模型设计,回顾语言表征学习的思想演进( 八 )
我们先介绍注意力算子 (Attention)。注意力算子的基本元素为查询向量 (Query Vector) q,地址向量 (Key Vector) k 以及内容向量 (Value Vector) v。其输出 h 为所有内容向量的加权求和,每个权重由查询向量和地址向量算出的注意力权重(Attention Score) 决定:
注意力算子达到的目的是基于查询向量对一组表征信息进行聚合。
回到建模依赖关系的问题上。既然每个词都可能对其他词产生依赖,那我们让每个词都用注意力算子从其他词那里聚合信息不就好了嘛!这便是自注意力 (Self-Attention) 的动机。
对于第 i 个词,我们可以根据其词向量 x 算出其对应的查询向量、地址向量以及内容向量:
在进行表征聚合时,q 来自要求表征的词,k 和 v 来自所有词 (包括要求表征的词本身)。"自注意力 (Self-Attention)" 中之所以有 "自 (Self)",是因为查询、地址和内容的角色均来自同一个序列。
自注意力算子的引入解决了循环神经网络的两个问题:第 i 个词表征 h 的构建可以同时基于双向的语境;词间不管依赖距离多长,都只间隔了一次运算操作。
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!