不用看数学公式！图解谷歌神经机器翻译核心部分：注意力机制(11)_乾明编译整理量子位出品|公众号QbitAI

谷歌的神经机器翻译模型

谷歌神经机器翻译，集两者之大成，但受Bengio等人的模型影响多一点。要点是：

1、编码器由8个LSTM组成，其中第一个是双向的（输出是连接的），连续层的输出之间有残差连接（从第3层开始）。解码器是8个单向LSTM的独立堆栈。

2、评分函数使用的是additive/concat。

3、解码器下一个时间步的输入是前一个时间步（粉红色）的输出与当前时间步（深绿色）的语境向量之间的串联。

这个模型架构，在WMT’14英语-法语数据集上的BLEU分数是38.95。在WMT’14英语-德语数据集上的BLEU分数是24.17。

这是一个具有8个堆叠编码器的seq2seq（+双向+残差连接）+注意力的模型。

相当于在将德语文本翻译成英语的时候，用了八个翻译员，分别是翻译员A、B、C…H。每一位翻译员都阅读相同的德语文本。

对于文本中的每一个单词，翻译员A都会给翻译员B分享他的发现，翻译员B会改进这些发现，然后与翻译员C分享，一直重复这个过程，直到翻译员H结束。

不用看数学公式！图解谷歌神经机器翻译核心部分：注意力机制(11)