微软最新通用预训练模型MASS，超越BERT、GPT！( 七 )_图1

图8/12

可以看到，MASS 的预训练方法在 WMT14 英语 - 法语、WMT16 英语 - 德语一共 4 个翻译方向上的表现都优于 XLM。MASS 在英语 - 法语无监督翻译上的效果已经远超早期有监督的编码器 - 注意力 - 解码器模型，同时极大缩小了和当前最好的有监督模型之间的差距。

低资源机器翻译

低资源机器翻译指的是监督数据有限情况下的机器翻译。我们在 WMT14 英语 - 法语、WMT16 英语 - 德语上的不同低资源场景上（分别只有 10K、100K、1M 的监督数据）验证我们方法的有效性，结果如下所示。

图9/12

在不同的数据规模下，我们的预训练方法的表现均比不用预训练的基线模型有不同程度的提升，监督数据越少，提升效果越显著。

文本摘要生成

在文本摘要生成（Gigaword Corpus）任务上，我们将 MASS 同 BERT+LM（编码器用 BERT 预训练，解码器用标准语言模型 LM 预训练）以及 DAE（去噪自编码器）进行了比较。从下表可以看到，MASS 的效果明显优于 BERT+LM 以及 DAE。

微软最新通用预训练模型MASS，超越BERT、GPT！( 七 )