不用看数学公式!图解谷歌神经机器翻译核心部分:注意力机制( 十 )

斯坦福大学团队的研究

与Bengio等人的模型相比,斯坦福大学团队提出的模型架构,更具有概括性,也更加简单。要点如下:

1、编码器是一个双层的LSTM网络。解码器也具有相同的架构,它初始隐藏状态是最后的编码器隐藏状态。

2、他们模型的评分函数有四种,分别是:additive/concat、dot product、location-based和’general’。

3、当前解码器时间步的输出与来自当前时间步的语境向量之间的串联,会输入到前馈神经网络中,来得出当前解码器时间步的最终输出(粉红色)。

这个模型架构,在WMT’15英语-德语数据集上的BLEU分数是25.9。

简单来说,这是一个采用双层堆叠编码器的seq2seq+注意力模型。

在将德语文本翻译到英语时,翻译员A一样在阅读德语文本的时候,写下关键词。在这里,翻译员B比翻译员A要更专业,他也会阅读同样的德语文本,并写下关键词。

主要注意的是,翻译员A阅读的每个单词,都要向翻译员B报告。完成阅读后,他们会根据他们选择的关键词,将文本翻译成英语。

推荐阅读