完全图解GPT-2:看完这篇就够了(二)( 九 )

相乘后得到的向量从基本就是单词「it」的查询、键和值向量连接 的结果。

完全图解GPT-2:看完这篇就够了(二)

图17/36

将输入向量和注意力权重向量相乘(之后加上偏置向量)得到这个词的键、值和查询向量。

3. GPT-2 自注意力机制:1.5-分裂成注意力头

在前面的示例中,我们直接介绍了自注意力机制而忽略了「多头」的部分。现在,对这部分概念有所了解会大有用处。自注意力机制是在查询(Q)、键(K)、值(V)向量的不同部分多次进行的。「分裂」注意力头指的是,简单地将长向量重塑成矩阵形式。在小型的 GPT-2 中,有 12 个注意力头,因此这是重塑矩阵中的第一维:

完全图解GPT-2:看完这篇就够了(二)

图18/36

在前面的示例中,我们介绍了一个注意力头的情况。多个注意力头可以想象成这样(下图为 12 个注意力头中的 3 个的可视化结果):

推荐阅读