完全图解GPT-2:看完这篇就够了(二)( 十 )

完全图解GPT-2:看完这篇就够了(二)

图19/36

4. GPT-2 自注意力机制:2-计算注意力得分

我们接下来介绍计算注意力得分的过程——此时我们只关注一个注意力头(其它注意力头都进行类似的操作)。

完全图解GPT-2:看完这篇就够了(二)

图20/36

当前关注的词(token)可以对与其它键词的键向量相乘得到注意力得分(在先前迭代中的第一个注意力头中计算得到):

5. GPT-2 自注意力机制:3-求和

正如前文所述,我们现在可以将每个值向量乘上它的注意力得分,然后求和,得到的是第一个注意力头的自注意力结果:

完全图解GPT-2:看完这篇就够了(二)

推荐阅读