8 篇论文梳理 BERT 相关模型( 十 )

Full-Sentences:输入是一系列完整的句子,可以是来自同一个文档也可以是不同的文档;

Doc-Sentences:输入是一系列完整的句子,来自同一个文档;

结果发现完整句子会更好,来自同一个文档的会比来自不同文档的好一些,最终选用 Doc-Sentences 策略。

8 篇论文梳理 BERT 相关模型

图13/23

表 4:RoBERTa 在更多训练数据和更久训练时间下的实验结果

作者还尝试了更多的训练数据以及更久的训练时间,发现都能提升模型的表现。

这种思路一定程度上与 OpenAI 前段时间放出的 GPT2.0 暴力扩充数据方法有点类似,但是需要消耗大量的计算资源。

3. SpanBERT: Improving Pre-training by Representing and Predicting Spans

8 篇论文梳理 BERT 相关模型

推荐阅读