微软最新通用预训练模型MASS,超越BERT、GPT!( 六 )

序列到序列自然语言生成任务实验

预训练流程

MASS 只需要无监督的单语数据(比如 WMT News Crawl Data、Wikipedia Data 等)进行预训练。MASS 支持跨语言的序列到序列生成(比如机器翻译),也支持单语言的序列到序列生成(比如文本摘要生成、对话生成)。当预训练 MASS 支持跨语言任务时(比如英语 - 法语机器翻译),我们在一个模型里同时进行英语到英语以及法语到法语的预训练。需要单独给每个语言加上相应的语言嵌入向量,用来区分不同的语言。我们选取了无监督机器翻译、低资源机器翻译、文本摘要生成以及对话生成四个任务,将 MASS 预训练模型针对各个任务进行精调,以验证 MASS 的效果。

无监督机器翻译

在无监督翻译任务上,我们和当前最强的 Facebook XLM 作比较(XLM 用 BERT 中的屏蔽预训练模型,以及标准语言模型来分别预训练编码器和解码器),对比结果如下表所示。

微软最新通用预训练模型MASS,超越BERT、GPT!

推荐阅读