不用看数学公式！图解谷歌神经机器翻译核心部分：注意力机制( 十 )_乾明编译整理量子位出品|公众号QbitAI

斯坦福大学团队的研究

与Bengio等人的模型相比，斯坦福大学团队提出的模型架构，更具有概括性，也更加简单。要点如下：

1、编码器是一个双层的LSTM网络。解码器也具有相同的架构，它初始隐藏状态是最后的编码器隐藏状态。

2、他们模型的评分函数有四种，分别是：additive/concat、dot product、location-based和’general’。

3、当前解码器时间步的输出与来自当前时间步的语境向量之间的串联，会输入到前馈神经网络中，来得出当前解码器时间步的最终输出（粉红色）。

这个模型架构，在WMT’15英语-德语数据集上的BLEU分数是25.9。

简单来说，这是一个采用双层堆叠编码器的seq2seq+注意力模型。

在将德语文本翻译到英语时，翻译员A一样在阅读德语文本的时候，写下关键词。在这里，翻译员B比翻译员A要更专业，他也会阅读同样的德语文本，并写下关键词。

主要注意的是，翻译员A阅读的每个单词，都要向翻译员B报告。完成阅读后，他们会根据他们选择的关键词，将文本翻译成英语。

不用看数学公式！图解谷歌神经机器翻译核心部分：注意力机制( 十 )