不用看数学公式！图解谷歌神经机器翻译核心部分：注意力机制( 九 )

2019-02-10

1、编码器是一个双向（正向+反向）门控循环单元（BiGRU）。解码器是一个GRU，它的初始隐藏状态，是从反向编码器GRU的最后隐藏状态修改得来的向量。

2、注意力层中的评分函数使用的是additive/concat。

3、到下一个解码器时间步的输入是来自前一个解码器时间步（粉红色）的输出和来自当前时间步（深绿色）语境向量之间的串联。

这个模型架构，在WMT’14英语-法语数据集上的BLEU分数是26.75。

相当于在将德语文本翻译成英语的时候，用了两个翻译员。

翻译员A，在逐字逐句阅读德语文本的时候，会写下关键词。翻译员B，在倒着逐字逐句阅读德语文本的时候，写下关键词。

这两个翻译员，会定期讨论他们在讨论之前阅读的每一个单词。

读完德语文本之后，翻译员B会根据他们两个之间的讨论，以及选择的关键词，将文本翻译成英语。

在这里，翻译员A，是正向RNN，翻译员B，是反向RNN。

推荐阅读

上一篇：小米华为OV不再模仿苹果的齐刘海屏，网友：库克很开心

下一篇：交易又救活一个！20+6+5，他可差点就被废了