完全图解GPT-2：看完这篇就够了（二）( 九 )_选自github.io作者：JayAlammar机器之

相乘后得到的向量从基本就是单词「it」的查询、键和值向量连接的结果。

图17/36

将输入向量和注意力权重向量相乘（之后加上偏置向量）得到这个词的键、值和查询向量。

3. GPT-2 自注意力机制：1.5-分裂成注意力头

在前面的示例中，我们直接介绍了自注意力机制而忽略了「多头」的部分。现在，对这部分概念有所了解会大有用处。自注意力机制是在查询（Q）、键（K）、值（V）向量的不同部分多次进行的。「分裂」注意力头指的是，简单地将长向量重塑成矩阵形式。在小型的 GPT-2 中，有 12 个注意力头，因此这是重塑矩阵中的第一维：