完全图解GPT-2:看完这篇就够了(二)( 七 )

1. 模型评价时:一次只处理一个词

我们可以通过掩模自注意机制的方式执行 GPT-2。但是在模型评价时,当我们的模型每轮迭代后只增加一个新单词时,沿着先前已经处理过的路径再重新计算词(tokrn)的自注意力是效率极低的。

在这种情况下,我们处理第一个词(暂时忽略 )

完全图解GPT-2:看完这篇就够了(二)

图12/36

GPT-2 保存了词「a」的键向量和值向量。每个自注意力层包括了该词相应的键和值向量:

完全图解GPT-2:看完这篇就够了(二)

图13/36

在下一次迭代中,当模型处理单词「robot」时,它不再需要为词「a」生成查询、键和值向量。它只需要复用第一次迭代中保存的向量:

现在,在下一次迭代中,当模型处理单词 robot 时,它不再需要为 token「a」生成查询、键和值向量。它只需要复用第一次迭代中保存的向量:

推荐阅读