完全图解GPT-2:看完这篇就够了(二)( 二 )

自注意力机制(不使用掩模)

首先,我们将介绍原始的自注意力机制,它是在编码器模块里计算的。先看一个简易的 transformer 模块,它一次只能处理 4 个词(token)。

自注意力机制通过以下三个主要步骤来实现:

1. 为每个路径创建查询、键和值向量。

2. 对于每个输入的词,通过使用其查询向量与其它所有键向量相乘得到注意力得分。

3. 将值向量与它们相应的注意力得分相乘后求和

完全图解GPT-2:看完这篇就够了(二)

图2/36

1. 创建查询、键和值向量

我们重点关注第一条路径。我们用它的查询值与其它所有的键向量进行比较,这使得每个键向量都有一个对应的注意力得分。自注意力机制的第一步就是为每个词(token)路径(我们暂且忽略注意力头)计算三个向量:查询向量、键向量、值向量。

推荐阅读