8 篇论文梳理 BERT 相关模型( 九 )

8 篇论文梳理 BERT 相关模型

图12/23

表 3:RoBERTa 各个机制的效果比较实验

不同于原有的 BERT 的 MLM 机制,作者在总共 40 个 epoch 中使用 10 种不同的 Mask Pattern,即每种 Mask Pattern 训练 4 代,作为 static 策略;作者还引入了 dynamic masking 策略,即每输入一个 sequence 就为其生成一个 mask pattern。最终发现,新策略都比原 BERT 好,而 dynamic 总体上比 static 策略要好一些,并且可以用于训练更大的数据集以及更长的训练步数,因此最终选用 dynamic masking pattern。

作者还通过替换 NSP 任务进行预训练。虽然 BERT 中已经做了尝试去掉 NSP 后的对比,结果在很多任务中表现会下降,但是包括前文 XLNet 团队所做的实验都在质疑这一结论。

选用的新策略包括:

Sentence-Pair+NSP Loss:与原 BERT 相同;

Segment-Pair+NSP Loss:输入完整的一对包含多个句子的片段,这些片段可以来自同一个文档,也可以来自不同的文档;

推荐阅读