8 篇论文梳理 BERT 相关模型

8 篇论文梳理 BERT 相关模型

图1/23

新智元报道

来源:微软研究院 AI 头条

【新智元导读】BERT 自从在 arXiv 上发表以来获得了很大的成功和关注,打开了 NLP 中 2-Stage 的潘多拉魔盒,随后涌现了一大批类似于 “BERT” 的预训练模型。本文通过8篇论文梳理了BERT相关论文,并分析了BERT在各种任务中的效用。

BERT 自从在 arXiv 上发表以来获得了很大的成功和关注,打开了 NLP 中 2-Stage 的潘多拉魔盒。

随后涌现了一大批类似于 “BERT” 的预训练(pre-trained)模型,有引入 BERT 中双向上下文信息的广义自回归模型 XLNet,也有改进 BERT 训练方式和目标的 RoBERTa 和 SpanBERT,还有结合多任务以及知识蒸馏(Knowledge Distillation)强化 BERT 的 MT-DNN 等。

除此之外,还有人试图探究 BERT 的原理以及其在某些任务中表现出众的真正原因。以上种种,被戏称为 BERTology。本文中,微软亚洲研究院知识计算组实习生陈永强尝试汇总上述内容,作抛砖引玉。

推荐阅读