完全图解GPT-2:看完这篇就够了(二)( 二 )
自注意力机制(不使用掩模)
首先,我们将介绍原始的自注意力机制,它是在编码器模块里计算的。先看一个简易的 transformer 模块,它一次只能处理 4 个词(token)。
自注意力机制通过以下三个主要步骤来实现:
1. 为每个路径创建查询、键和值向量。
2. 对于每个输入的词,通过使用其查询向量与其它所有键向量相乘得到注意力得分。
3. 将值向量与它们相应的注意力得分相乘后求和
图2/36
1. 创建查询、键和值向量
我们重点关注第一条路径。我们用它的查询值与其它所有的键向量进行比较,这使得每个键向量都有一个对应的注意力得分。自注意力机制的第一步就是为每个词(token)路径(我们暂且忽略注意力头)计算三个向量:查询向量、键向量、值向量。
推荐阅读
- ez|《哈利波特:魔法觉醒》测试服关于《增强剂》的不完全测试说明书
- fpx战队|为什么同样是S赛夺冠,FPX的热度,完全没法跟IG与EDG相比?
- 大话西游|大话西游2这些召唤兽的天生技能是开发组拿来凑数的吗?实际效果完全没用
- 金庸群侠传|《金庸群侠传》丹药的效果完全超乎想象,极品丹药还能自己炼制
- ag战队|英雄联盟动画片出来了,这部剧完全可以满足一个lol老玩家的心愿
- 神角技巧|神回复:世界上有77亿人,有什么事情是完全没人在做的?
- edg战队|FPX世界赛失利被淘汰,舆论指向却从doinb完全去向小天,有点水军痕迹了
- edg战队|王者荣耀:一招鲜吃遍天?1个英雄想打5个位置?掌握这几个完全可以
- 明日方舟|明日方舟:六星近卫斯卡蒂现版本被完全撕卡 SP临光彻底让其失业
- 克里斯·诺斯|原神哥BeryL旧照曝光,颜值超高,和现在完全不是一个人