完全图解GPT-2：看完这篇就够了（二）( 六 )

2019-08-26

图10/36

然后，对每一行执行 softmax 操作，从而得到我们在自注意力机制中实际使用的注意力得分：

图11/36

此分数表的含义如下：

当模型处理数据集中的第一个示例（第一行）时，这里只包含了一个单词（「robot」），所以 100% 的注意力都在该单词上。

当模型处理数据集中的第二个示例（第二行）时，这里包含了（「robot must」），当它处理单词「must」时，48% 的注意力会在「robot」上，而另外 52% 的注意力会在「must」上。

以此类推

GPT-2 的掩模自注意力机制

接下来，我们将更详细地分析 GPT-2 的掩模自注意力机制。

推荐阅读

上一篇：做产品时，如何利用人性8大弱点？

下一篇：用Attention玩转CV，一文总览自注意力语义分割进展