完全图解GPT-2:看完这篇就够了(二)( 三 )

完全图解GPT-2:看完这篇就够了(二)

图3/36

2. 注意力得分

计算出上述三个向量后,我们在第二步中只用查询向量和键向量。我们重点关注第一个词,将它的查询向量与其它所有的键向量相乘,得到四个词中的每个词的注意力得分。

完全图解GPT-2:看完这篇就够了(二)

图4/36

3. 求和

现在,我们可以将注意力得分与值向量相乘。在我们对其求和后,注意力得分较高的值将在结果向量中占很大的比重。

完全图解GPT-2:看完这篇就够了(二)

图5/36

注意力得分越低,我们在图中显示的值向量就越透明。这是为了表明乘以一个小的数是如何削弱向量值的影响的。

推荐阅读