8 篇论文梳理 BERT 相关模型( 八 )_图1

XLNet 在使用 Wikibooks 数据集时，在 MRPC（Microsoft Research Paraphrase Corpus: 句子对来源于对同一条新闻的评论，判断这一对句子在语义上是否相同）和 QQP（Quora Question Pairs: 这是一个二分类数据集。目的是判断两个来自于 Quora 的问题句子在语义上是否是等价的）任务上获得了不弱于原版 XLNet 的表现；

BERT-WWM 模型普遍表现都优于原 BERT；

去掉 NSP（Next Sentence Prediction）的 BERT 在某些任务中表现会更好；

除了 XLNet，还有其他模型提出基于 BERT 的改进，让 BERT 发挥更大的潜能。

2. RoBERTa: A Robustly Optimized BERT Pretraining Approach

图11/23

表 2：RoBERTa 在 GLUE 中的实验结果

RoBERTa 是最近 Facebook AI 联合 UW 发布的 BERT 预训练模型，其改进主要是如图所示几点，除了调参外，还引入了 Dynamically Change Mask Pattern 并移除 Next Sentence Prediction，使得模型在 GLUE Benchmark 排名第一。作者的观点是：BERT is significantly undertrained。