完全图解GPT-2:看完这篇就够了(二)( 六 )

完全图解GPT-2:看完这篇就够了(二)

图10/36

然后,对每一行执行 softmax 操作,从而得到我们在自注意力机制中实际使用的注意力得分:

完全图解GPT-2:看完这篇就够了(二)

图11/36

此分数表的含义如下:

当模型处理数据集中的第一个示例(第一行)时,这里只包含了一个单词(「robot」),所以 100% 的注意力都在该单词上。

当模型处理数据集中的第二个示例(第二行)时,这里包含了(「robot must」),当它处理单词「must」时,48% 的注意力会在「robot」上,而另外 52% 的注意力会在「must」上。

以此类推

GPT-2 的掩模自注意力机制

接下来,我们将更详细地分析 GPT-2 的掩模自注意力机制。

推荐阅读