微软最新通用预训练模型MASS,超越BERT、GPT!( 三 )
新的预训练方法 ——MASS
专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的预训练方法:屏蔽序列到序列预训练(MASS: Masked Sequence to Sequence Pre-training)。MASS 对句子随机屏蔽一个长度为 k 的连续片段,然后通过编码器 - 注意力 - 解码器模型预测生成该片段。
图3/12
屏蔽序列到序列预训练 MASS 模型框架
如上图所示,编码器端的第 3-6 个词被屏蔽掉,然后解码器端只预测这几个连续的词,而屏蔽掉其它词,图中 “_” 代表被屏蔽的词。
MASS 预训练有以下几大优势:
(1)解码器端其它词(在编码器端未被屏蔽掉的词)都被屏蔽掉,以鼓励解码器从编码器端提取信息来帮助连续片段的预测,这样能促进编码器 - 注意力 - 解码器结构的联合训练;
推荐阅读
- 魔兽世界|魔兽世界:60版本赛季服最新消息,大家都跑过去体验,真香定律
- 微软|微软Xbox 20周岁了,但这些密辛你未必知道
- edg战队|外媒公布最新世界赛决赛含金量TOP10,EDG对DK这场登顶
- 上古卷轴6|B社画饼上瘾,《上古卷轴6》最新消息流出,玩家还要等20年
- 微软|热血传奇:54级巨战《恩比德》,5万的裁决用来挂机好吗?
- ig|UZI最新直播回复几个关键问题:加入IG,复出,训练赛?
- 微软|【多图杀猫?】IGN满分大作《极限竞速:地平线 5》今日正式发布
- |Angelababy晒最新COS照,蓝色麻花辫颇显俏皮,将在斗鱼直播首秀
- 艾琳|蓬勃向上,电竞+的持续上行
- 使命|三国杀:最新的送给你一个老武将,国战将进入基本场,终于做人了