完全图解GPT-2:看完这篇就够了(二)( 九 )
相乘后得到的向量从基本就是单词「it」的查询、键和值向量连接 的结果。
图17/36
将输入向量和注意力权重向量相乘(之后加上偏置向量)得到这个词的键、值和查询向量。
3. GPT-2 自注意力机制:1.5-分裂成注意力头
在前面的示例中,我们直接介绍了自注意力机制而忽略了「多头」的部分。现在,对这部分概念有所了解会大有用处。自注意力机制是在查询(Q)、键(K)、值(V)向量的不同部分多次进行的。「分裂」注意力头指的是,简单地将长向量重塑成矩阵形式。在小型的 GPT-2 中,有 12 个注意力头,因此这是重塑矩阵中的第一维:
图18/36
在前面的示例中,我们介绍了一个注意力头的情况。多个注意力头可以想象成这样(下图为 12 个注意力头中的 3 个的可视化结果):
推荐阅读
- ez|《哈利波特:魔法觉醒》测试服关于《增强剂》的不完全测试说明书
- fpx战队|为什么同样是S赛夺冠,FPX的热度,完全没法跟IG与EDG相比?
- 大话西游|大话西游2这些召唤兽的天生技能是开发组拿来凑数的吗?实际效果完全没用
- 金庸群侠传|《金庸群侠传》丹药的效果完全超乎想象,极品丹药还能自己炼制
- ag战队|英雄联盟动画片出来了,这部剧完全可以满足一个lol老玩家的心愿
- 神角技巧|神回复:世界上有77亿人,有什么事情是完全没人在做的?
- edg战队|FPX世界赛失利被淘汰,舆论指向却从doinb完全去向小天,有点水军痕迹了
- edg战队|王者荣耀:一招鲜吃遍天?1个英雄想打5个位置?掌握这几个完全可以
- 明日方舟|明日方舟:六星近卫斯卡蒂现版本被完全撕卡 SP临光彻底让其失业
- 克里斯·诺斯|原神哥BeryL旧照曝光,颜值超高,和现在完全不是一个人