8 篇论文梳理 BERT 相关模型( 十 )

2019-09-09

Full-Sentences：输入是一系列完整的句子，可以是来自同一个文档也可以是不同的文档；

Doc-Sentences：输入是一系列完整的句子，来自同一个文档；

结果发现完整句子会更好，来自同一个文档的会比来自不同文档的好一些，最终选用 Doc-Sentences 策略。

图13/23

表 4：RoBERTa 在更多训练数据和更久训练时间下的实验结果

作者还尝试了更多的训练数据以及更久的训练时间，发现都能提升模型的表现。

这种思路一定程度上与 OpenAI 前段时间放出的 GPT2.0 暴力扩充数据方法有点类似，但是需要消耗大量的计算资源。

3. SpanBERT: Improving Pre-training by Representing and Predicting Spans

推荐阅读

上一篇：NeurIPS 2019论文盘点：谷歌系最多，国内清华第一

下一篇：非数据分析的16条建议，给抖音