不用看数学公式！图解谷歌神经机器翻译核心部分：注意力机制( 二 )_乾明编译整理量子位出品|公众号QbitAI

这个新模型使用的是端到端的编码器-解码器结构。

在处理翻译工作的时候，先用卷积神经网络（CNN），将原始文本编码成连续的向量，然后使用循环神经网络（RNN）将连续向量转换成目标语言。

但由于梯度爆炸/消失的存在，但使用这种方法很难获取更长句子背后的信息，导致翻译性能大幅下降。

在2014年，当时在谷歌工作的Ilya Sutskever等人提出了序列到序列（seq2seq）学习的方法，将RNN同时用于编码器和解码器。

也把RNN的典型变体长短时记忆（LSTM）引入到了神经机器翻译中。这样以来，梯度爆炸/消失就得到了控制，长距离重新排序的问题得到了缓解。

正所谓是摁下葫芦起来瓢，新的问题又出现了。seq2seq方法中，解码器从编码器中接收的唯一信息，是最后编码器的隐藏状态，这是一个向量表征，是输入序列文本的数字概要。

具体如下图中的两个红色节点所示。

对于像下图这样很长的输入文本来说，我们特别希望这个隐藏状态，能够充分概括输入序列，解码器就能够根据这一个向量表征来很好的完成转换了。

不用看数学公式！图解谷歌神经机器翻译核心部分：注意力机制( 二 )