完全图解GPT-2：看完这篇就够了（二）

2019-08-26

选自github.io

作者：Jay Alammar

机器之心编译

参与：陈韵莹、Geek AI

在本系列文章的第一部分中，我们回顾了 Transformer 的基本工作原理，初步了解了 GPT-2 的内部结构。在本文中，我们将详细介绍 GPT-2 所使用的自注意力机制，并分享只包含解码器的 transformer 模型的精彩应用。

第二部分：图解自注意力机制

在前面的文章中，我们用这张图来展示了自注意力机制在处理单词「it」的层中的应用：

图1/36

在本节中，我们会详细介绍该过程是如何实现的。请注意，我们将会以试图弄清单个单词被如何处理的角度来看待这个问题。这也是我们会展示许多单个向量的原因。这实际上是通过将巨型矩阵相乘来实现的。但是我想直观地看看，在单词层面上发生了什么。

推荐阅读

上一篇：做产品时，如何利用人性8大弱点？

下一篇：用Attention玩转CV，一文总览自注意力语义分割进展