完全图解GPT-2：看完这篇就够了（二）( 七 )

2019-08-26

1. 模型评价时：一次只处理一个词

我们可以通过掩模自注意机制的方式执行 GPT-2。但是在模型评价时，当我们的模型每轮迭代后只增加一个新单词时，沿着先前已经处理过的路径再重新计算词（tokrn）的自注意力是效率极低的。

在这种情况下，我们处理第一个词（暂时忽略）

图12/36

GPT-2 保存了词「a」的键向量和值向量。每个自注意力层包括了该词相应的键和值向量：

图13/36

在下一次迭代中，当模型处理单词「robot」时，它不再需要为词「a」生成查询、键和值向量。它只需要复用第一次迭代中保存的向量:

现在，在下一次迭代中，当模型处理单词 robot 时，它不再需要为 token「a」生成查询、键和值向量。它只需要复用第一次迭代中保存的向量:

推荐阅读

上一篇：做产品时，如何利用人性8大弱点？

下一篇：用Attention玩转CV，一文总览自注意力语义分割进展