8 篇论文梳理 BERT 相关模型( 九 )
图12/23
表 3:RoBERTa 各个机制的效果比较实验
不同于原有的 BERT 的 MLM 机制,作者在总共 40 个 epoch 中使用 10 种不同的 Mask Pattern,即每种 Mask Pattern 训练 4 代,作为 static 策略;作者还引入了 dynamic masking 策略,即每输入一个 sequence 就为其生成一个 mask pattern。最终发现,新策略都比原 BERT 好,而 dynamic 总体上比 static 策略要好一些,并且可以用于训练更大的数据集以及更长的训练步数,因此最终选用 dynamic masking pattern。
作者还通过替换 NSP 任务进行预训练。虽然 BERT 中已经做了尝试去掉 NSP 后的对比,结果在很多任务中表现会下降,但是包括前文 XLNet 团队所做的实验都在质疑这一结论。
选用的新策略包括:
Sentence-Pair+NSP Loss:与原 BERT 相同;
Segment-Pair+NSP Loss:输入完整的一对包含多个句子的片段,这些片段可以来自同一个文档,也可以来自不同的文档;
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!