完全图解GPT-2:看完这篇就够了(二)( 八 )

完全图解GPT-2:看完这篇就够了(二)

图14/36

2. GPT-2 自注意力机制:1-创建查询、键和值

假设模型正在处理单词「it」。对于下图中底部的模块来说,它对该词的输入则是「it」的嵌入向量+序列中第九个位置的位置编码:

完全图解GPT-2:看完这篇就够了(二)

图15/36

Transformer 中的每个模块都有自己的权重(之后会详细分析)。我们首先看到的是用于创建查询、键和值的权重矩阵。

完全图解GPT-2:看完这篇就够了(二)

图16/36

自注意力机制将它的输入与权重矩阵相乘(并加上一个偏置向量,这里不作图示)。

推荐阅读