微软最新通用预训练模型MASS，超越BERT、GPT！( 五 )

2019-05-10

图5/12

MASS 在不同 K 下的概率形式如下表所示，其中 m 为序列长度，u 和 v 为屏蔽序列的开始和结束位置，x^u:v 表示从位置 u 到 v 的序列片段，x^\u:v 表示该序列从位置 u 到 v 被屏蔽掉。可以看到，当K=1 或者 m 时，MASS 的概率形式分别和 BERT 中的屏蔽语言模型以及 GPT 中的标准语言模型一致。

图6/12

我们通过实验分析了屏蔽 MASS 模型中不同的片段长度（k）进行预训练的效果，如下图所示。

图7/12

当 k 取大约句子长度一半时（50% m），下游任务能达到最优性能。屏蔽句子中一半的词可以很好地平衡编码器和解码器的预训练，过度偏向编码器（k=1，即 BERT）或者过度偏向解码器（k=m，即 LM/GPT）都不能在该任务中取得最优的效果，由此可以看出 MASS 在序列到序列的自然语言生成任务中的优势。

推荐阅读

上一篇：宜家又新出一批家居，老婆立马买回了家！厨房瞬间新潮又整洁

下一篇：竞争对手围追堵截，IPO是Uber的一剂良药吗？