不用看数学公式!图解谷歌神经机器翻译核心部分:注意力机制( 九 )

1、编码器是一个双向(正向+反向)门控循环单元(BiGRU)。解码器是一个GRU,它的初始隐藏状态,是从反向编码器GRU的最后隐藏状态修改得来的向量。

2、注意力层中的评分函数使用的是additive/concat。

3、到下一个解码器时间步的输入是来自前一个解码器时间步(粉红色)的输出和来自当前时间步(深绿色)语境向量之间的串联。

这个模型架构,在WMT’14英语-法语数据集上的BLEU分数是26.75。

相当于在将德语文本翻译成英语的时候,用了两个翻译员。

翻译员A,在逐字逐句阅读德语文本的时候,会写下关键词。翻译员B,在倒着逐字逐句阅读德语文本的时候,写下关键词。

这两个翻译员,会定期讨论他们在讨论之前阅读的每一个单词。

读完德语文本之后,翻译员B会根据他们两个之间的讨论,以及选择的关键词,将文本翻译成英语。

在这里,翻译员A,是正向RNN,翻译员B,是反向RNN。

推荐阅读