完全图解GPT-2：看完这篇就够了（二）( 八 )

2019-08-26

图14/36

2. GPT-2 自注意力机制:1-创建查询、键和值

假设模型正在处理单词「it」。对于下图中底部的模块来说，它对该词的输入则是「it」的嵌入向量+序列中第九个位置的位置编码：

图15/36

Transformer 中的每个模块都有自己的权重（之后会详细分析）。我们首先看到的是用于创建查询、键和值的权重矩阵。

图16/36

自注意力机制将它的输入与权重矩阵相乘（并加上一个偏置向量，这里不作图示）。

推荐阅读

上一篇：做产品时，如何利用人性8大弱点？

下一篇：用Attention玩转CV，一文总览自注意力语义分割进展