微软最新通用预训练模型MASS，超越BERT、GPT！( 四 )_图1

（2）为了给解码器提供更有用的信息，编码器被强制去抽取未被屏蔽掉词的语义，以提升编码器理解源序列文本的能力；

（3）让解码器预测连续的序列片段，以提升解码器的语言建模能力。

统一的预训练框架

MASS 有一个重要的超参数 k（屏蔽的连续片段长度），通过调整 k 的大小，MASS 能包含 BERT 中的屏蔽语言模型训练方法以及 GPT 中标准的语言模型预训练方法，使 MASS 成为一个通用的预训练框架。

当 k=1 时，根据 MASS 的设定，编码器端屏蔽一个单词，解码器端预测一个单词，如下图所示。解码器端没有任何输入信息，这时 MASS 和 BERT 中的屏蔽语言模型的预训练方法等价。

图4/12

当 k=m（m 为序列长度）时，根据 MASS 的设定，编码器屏蔽所有的单词，解码器预测所有单词，如下图所示，由于编码器端所有词都被屏蔽掉，解码器的注意力机制相当于没有获取到信息，在这种情况下 MASS 等价于 GPT 中的标准语言模型。

微软最新通用预训练模型MASS，超越BERT、GPT！( 四 )