完全图解GPT-2:看完这篇就够了(二)(11)

图21/36

6. GPT-2 自注意力机制:3.5-合并多个注意力头

我们处理多个注意力头的方式是先将它们连接成一个向量:

完全图解GPT-2:看完这篇就够了(二)

图22/36

但是这个向量还不能被传递到下一个子层。我们首先需要将这个隐含状态的混合向量转变成同质的表示形式。

7. GPT-2 自注意力机制:4-投影

我们将让模型学习如何最好地将连接好的自注意力结果映射到一个前馈神经网络可以处理的向量。下面是我们的第二个大型权重矩阵,它将注意力头的结果投影到自注意力子层的输出向量中:

完全图解GPT-2:看完这篇就够了(二)

图23/36

通过这个操作,我们可以生成能够传递给下一层的向量:

推荐阅读