微软最新通用预训练模型MASS,超越BERT、GPT!( 四 )
(2)为了给解码器提供更有用的信息,编码器被强制去抽取未被屏蔽掉词的语义,以提升编码器理解源序列文本的能力;
(3)让解码器预测连续的序列片段,以提升解码器的语言建模能力。
统一的预训练框架
MASS 有一个重要的超参数 k(屏蔽的连续片段长度),通过调整 k 的大小,MASS 能包含 BERT 中的屏蔽语言模型训练方法以及 GPT 中标准的语言模型预训练方法,使 MASS 成为一个通用的预训练框架。
当 k=1 时,根据 MASS 的设定,编码器端屏蔽一个单词,解码器端预测一个单词,如下图所示。解码器端没有任何输入信息,这时 MASS 和 BERT 中的屏蔽语言模型的预训练方法等价。
图4/12
当 k=m(m 为序列长度)时,根据 MASS 的设定,编码器屏蔽所有的单词,解码器预测所有单词,如下图所示,由于编码器端所有词都被屏蔽掉,解码器的注意力机制相当于没有获取到信息,在这种情况下 MASS 等价于 GPT 中的标准语言模型。
推荐阅读
- 魔兽世界|魔兽世界:60版本赛季服最新消息,大家都跑过去体验,真香定律
- 微软|微软Xbox 20周岁了,但这些密辛你未必知道
- edg战队|外媒公布最新世界赛决赛含金量TOP10,EDG对DK这场登顶
- 上古卷轴6|B社画饼上瘾,《上古卷轴6》最新消息流出,玩家还要等20年
- 微软|热血传奇:54级巨战《恩比德》,5万的裁决用来挂机好吗?
- ig|UZI最新直播回复几个关键问题:加入IG,复出,训练赛?
- 微软|【多图杀猫?】IGN满分大作《极限竞速:地平线 5》今日正式发布
- |Angelababy晒最新COS照,蓝色麻花辫颇显俏皮,将在斗鱼直播首秀
- 艾琳|蓬勃向上,电竞+的持续上行
- 使命|三国杀:最新的送给你一个老武将,国战将进入基本场,终于做人了