微软最新通用预训练模型MASS，超越BERT、GPT！( 三 )

2019-05-10

新的预训练方法 ——MASS

专门针对序列到序列的自然语言生成任务，微软亚洲研究院提出了新的预训练方法：屏蔽序列到序列预训练（MASS: Masked Sequence to Sequence Pre-training）。MASS 对句子随机屏蔽一个长度为 k 的连续片段，然后通过编码器 - 注意力 - 解码器模型预测生成该片段。

图3/12

屏蔽序列到序列预训练 MASS 模型框架

如上图所示，编码器端的第 3-6 个词被屏蔽掉，然后解码器端只预测这几个连续的词，而屏蔽掉其它词，图中 “_” 代表被屏蔽的词。

MASS 预训练有以下几大优势：

（1）解码器端其它词（在编码器端未被屏蔽掉的词）都被屏蔽掉，以鼓励解码器从编码器端提取信息来帮助连续片段的预测，这样能促进编码器 - 注意力 - 解码器结构的联合训练；

推荐阅读

上一篇：宜家又新出一批家居，老婆立马买回了家！厨房瞬间新潮又整洁

下一篇：竞争对手围追堵截，IPO是Uber的一剂良药吗？