8 篇论文梳理 BERT 相关模型(11)
图14/23
图 6:SpanBER 模型框架以及在 GLUE 中的实验结果
不同于 RoBERTa,SpanBERT 通过修改模型的预训练任务和目标使模型达到更好的效果。其修改主要是三个方面:
Span Masking:这个方法与之前 BERT 团队放出 WWM(Whole Word Masking)类似,即在 mask 时 mask 一整个单词的 token 而非原来单个 token。每次 mask 前,从一个几何分布中采样得到需要 mask 的 span 的长度,并等概率地对输入中为该长度的 span 进行 mask,直到 mask 完 15% 的输入。
Span Boundary Object:使用 span 前一个 token 和末尾后一个 token 以及 token 位置的 fixed-representation 表示 span 内部的一个 token。并以此来预测该 token,使用交叉熵作为新的 loss 加入到最终的 loss 函数中。该机制使得模型在 Span-Level 的任务种能获得更好的表现。
Single-Sequence Training:直接输入一整段连续的 sequence,这样可以使得模型获得更长的上下文信息。
在这三个机制下,SpanBERT 使用与 BERT 相同的语料进行训练,最终在 GLUE 中获得 82.8 的表现,高于原版 Google BERT 2.4%,高于他们调参后的 BERT 1%,同时在 Coreference Resolution 上将最好结果提高了 6.6%。
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!