不用看数学公式!图解谷歌神经机器翻译核心部分:注意力机制( 八 )

第六步:将语境向量输入到解码器中

这一步怎么做,取决于模型的架构设计。在接下来的示例中,会看到在模型架构中,解码器如何利用语境向量。

整体的运行机制,如下图所示:

不用看数学公式!图解谷歌神经机器翻译核心部分:注意力机制

那么,注意力机制是如何发挥作用的呢?

反向传播。反向传播将尽一切努力确保输出接近实际情况。这是通过改变RNN中的权重和评分函数(如果有的话)来完成的。

这些权重将影响编码器的隐藏状态和解码器的隐藏状态,进而影响注意力得分。

谷歌神经机器翻译如何应用注意力机制?

在介绍谷歌神经机器翻译模型之前,还需要补补课,看一下另外两个模型。

Bengio团队的研究

这是一个具有双向编码器的seq2seq+注意力模型,以下是模型架构的注意事项:

推荐阅读