8 篇论文梳理 BERT 相关模型( 八 )

XLNet 在使用 Wikibooks 数据集时,在 MRPC(Microsoft Research Paraphrase Corpus: 句子对来源于对同一条新闻的评论,判断这一对句子在语义上是否相同)和 QQP(Quora Question Pairs: 这是一个二分类数据集。目的是判断两个来自于 Quora 的问题句子在语义上是否是等价的)任务上获得了不弱于原版 XLNet 的表现;

BERT-WWM 模型普遍表现都优于原 BERT;

去掉 NSP(Next Sentence Prediction)的 BERT 在某些任务中表现会更好;

除了 XLNet,还有其他模型提出基于 BERT 的改进,让 BERT 发挥更大的潜能。

2. RoBERTa: A Robustly Optimized BERT Pretraining Approach

8 篇论文梳理 BERT 相关模型

图11/23

表 2:RoBERTa 在 GLUE 中的实验结果

RoBERTa 是最近 Facebook AI 联合 UW 发布的 BERT 预训练模型,其改进主要是如图所示几点,除了调参外,还引入了 Dynamically Change Mask Pattern 并移除 Next Sentence Prediction,使得模型在 GLUE Benchmark 排名第一。作者的观点是:BERT is significantly undertrained。

推荐阅读