8 篇论文梳理 BERT 相关模型_图1

图1/23

新智元报道

来源：微软研究院 AI 头条

【新智元导读】BERT 自从在 arXiv 上发表以来获得了很大的成功和关注，打开了 NLP 中 2-Stage 的潘多拉魔盒，随后涌现了一大批类似于 “BERT” 的预训练模型。本文通过8篇论文梳理了BERT相关论文，并分析了BERT在各种任务中的效用。

BERT 自从在 arXiv 上发表以来获得了很大的成功和关注，打开了 NLP 中 2-Stage 的潘多拉魔盒。

随后涌现了一大批类似于 “BERT” 的预训练（pre-trained）模型，有引入 BERT 中双向上下文信息的广义自回归模型 XLNet，也有改进 BERT 训练方式和目标的 RoBERTa 和 SpanBERT，还有结合多任务以及知识蒸馏（Knowledge Distillation）强化 BERT 的 MT-DNN 等。

除此之外，还有人试图探究 BERT 的原理以及其在某些任务中表现出众的真正原因。以上种种，被戏称为 BERTology。本文中，微软亚洲研究院知识计算组实习生陈永强尝试汇总上述内容，作抛砖引玉。