完全图解GPT-2：看完这篇就够了（二）( 二 )

2019-08-26

自注意力机制（不使用掩模）

首先，我们将介绍原始的自注意力机制，它是在编码器模块里计算的。先看一个简易的 transformer 模块，它一次只能处理 4 个词（token）。

自注意力机制通过以下三个主要步骤来实现：

1. 为每个路径创建查询、键和值向量。

2. 对于每个输入的词，通过使用其查询向量与其它所有键向量相乘得到注意力得分。

3. 将值向量与它们相应的注意力得分相乘后求和

图2/36

1. 创建查询、键和值向量

我们重点关注第一条路径。我们用它的查询值与其它所有的键向量进行比较，这使得每个键向量都有一个对应的注意力得分。自注意力机制的第一步就是为每个词（token）路径（我们暂且忽略注意力头）计算三个向量：查询向量、键向量、值向量。

推荐阅读

上一篇：做产品时，如何利用人性8大弱点？

下一篇：用Attention玩转CV，一文总览自注意力语义分割进展