8 篇论文梳理 BERT 相关模型( 三 )
图 1:XLNet 和 BERT 对比图
我们知道,BERT 是典型的自编码模型(Autoencoder),旨在从引入噪声的数据重建原数据。而 BERT 的预训练过程采用了降噪自编码(Variational Autoencoder)思想,即 MLM(Mask Language Model)机制,区别于自回归模型(Autoregressive Model),最大的贡献在于使得模型获得了双向的上下文信息,但是会存在一些问题:
1. Pretrain-finetune Discrepancy:预训练时的 [MASK] 在微调(fine-tuning)时并不会出现,使得两个过程不一致,这不利于 Learning。
2. Independence Assumption:每个 token 的预测是相互独立的。而类似于 New York 这样的 Entity,New 和 York 是存在关联的,这个假设则忽略了这样的情况。
自回归模型不存在第二个问题,但传统的自回归模型是单向的。XLNet 团队想做的,就是让自回归模型也获得双向上下文信息,并避免第一个问题的出现。
他们主要使用了以下三个机制:
Permutation Language Model
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!