微软最新通用预训练模型MASS，超越BERT、GPT！( 六 )_图1

序列到序列自然语言生成任务实验

预训练流程

MASS 只需要无监督的单语数据（比如 WMT News Crawl Data、Wikipedia Data 等）进行预训练。MASS 支持跨语言的序列到序列生成（比如机器翻译），也支持单语言的序列到序列生成（比如文本摘要生成、对话生成）。当预训练 MASS 支持跨语言任务时（比如英语 - 法语机器翻译），我们在一个模型里同时进行英语到英语以及法语到法语的预训练。需要单独给每个语言加上相应的语言嵌入向量，用来区分不同的语言。我们选取了无监督机器翻译、低资源机器翻译、文本摘要生成以及对话生成四个任务，将 MASS 预训练模型针对各个任务进行精调，以验证 MASS 的效果。

无监督机器翻译

在无监督翻译任务上，我们和当前最强的 Facebook XLM 作比较（XLM 用 BERT 中的屏蔽预训练模型，以及标准语言模型来分别预训练编码器和解码器），对比结果如下表所示。