不用看数学公式!图解谷歌神经机器翻译核心部分:注意力机制(11)

谷歌的神经机器翻译模型

谷歌神经机器翻译,集两者之大成,但受Bengio等人的模型影响多一点。要点是:

1、编码器由8个LSTM组成,其中第一个是双向的(输出是连接的),连续层的输出之间有残差连接(从第3层开始)。解码器是8个单向LSTM的独立堆栈。

2、评分函数使用的是additive/concat。

3、解码器下一个时间步的输入是前一个时间步(粉红色)的输出与当前时间步(深绿色)的语境向量之间的串联。

这个模型架构,在WMT’14英语-法语数据集上的BLEU分数是38.95。在WMT’14英语-德语数据集上的BLEU分数是24.17。

这是一个具有8个堆叠编码器的seq2seq(+双向+残差连接)+注意力的模型。

相当于在将德语文本翻译成英语的时候,用了八个翻译员,分别是翻译员A、B、C…H。每一位翻译员都阅读相同的德语文本。

对于文本中的每一个单词,翻译员A都会给翻译员B分享他的发现,翻译员B会改进这些发现,然后与翻译员C分享,一直重复这个过程,直到翻译员H结束。

推荐阅读