8 篇论文梳理 BERT 相关模型(11)

图14/23

图 6:SpanBER 模型框架以及在 GLUE 中的实验结果

不同于 RoBERTa,SpanBERT 通过修改模型的预训练任务和目标使模型达到更好的效果。其修改主要是三个方面:

Span Masking:这个方法与之前 BERT 团队放出 WWM(Whole Word Masking)类似,即在 mask 时 mask 一整个单词的 token 而非原来单个 token。每次 mask 前,从一个几何分布中采样得到需要 mask 的 span 的长度,并等概率地对输入中为该长度的 span 进行 mask,直到 mask 完 15% 的输入。

Span Boundary Object:使用 span 前一个 token 和末尾后一个 token 以及 token 位置的 fixed-representation 表示 span 内部的一个 token。并以此来预测该 token,使用交叉熵作为新的 loss 加入到最终的 loss 函数中。该机制使得模型在 Span-Level 的任务种能获得更好的表现。

Single-Sequence Training:直接输入一整段连续的 sequence,这样可以使得模型获得更长的上下文信息。

在这三个机制下,SpanBERT 使用与 BERT 相同的语料进行训练,最终在 GLUE 中获得 82.8 的表现,高于原版 Google BERT 2.4%,高于他们调参后的 BERT 1%,同时在 Coreference Resolution 上将最好结果提高了 6.6%。

推荐阅读