微软最新通用预训练模型MASS，超越BERT、GPT！( 二 )_图1

MASS 帮助中 - 英、英 - 立陶宛两个语言对取得了第一名的成绩

。

BERT 在自然语言理解（比如情感分类、自然语言推理、命名实体识别、SQuAD 阅读理解等）任务中取得了很好的结果，受到了越来越多的关注。然而，在自然语言处理领域，除了自然语言理解任务，还有很多序列到序列的自然语言生成任务，比如机器翻译、文本摘要生成、对话生成、问答、文本风格转换等。在这类任务中，目前主流的方法是编码器 - 注意力 - 解码器框架，如下图所示。

图2/12

编码器 - 注意力 - 解码器框架

编码器（Encoder）将源序列文本 X 编码成隐藏向量序列，然后解码器（Decoder）通过注意力机制（Attention）抽取编码的隐藏向量序列信息，自回归地生成目标序列文本 Y。

BERT 通常只训练一个编码器用于自然语言理解，而 GPT 的语言模型通常是训练一个解码器。如果要将 BERT 或者 GPT 用于序列到序列的自然语言生成任务，通常只有分开预训练编码器和解码器，因此编码器 - 注意力 - 解码器结构没有被联合训练，记忆力机制也不会被预训练，而解码器对编码器的注意力机制在这类任务中非常重要，因此 BERT 和 GPT 在这类任务中只能达到次优效果。