8 篇论文梳理 BERT 相关模型( 六 )
Recurrence Mechanism
图7/23
图 4:Recurrence Mechanism 机制
该机制来自 Transformer-XL,即在处理下一个 segment 时结合上个 segment 的 hidden representation,使得模型能够获得更长距离的上下文信息。而在 XLNet 中,虽然在前端采用相对位置编码,但在表示 h_θ (x_) 的时候,涉及到的处理与 permutation 独立,因此还可以沿用这个机制。该机制使得 XLNet 在处理长文档时具有较好的优势。
XLNet 与 BERT 的区别示例
图8/23
图 5:XLNet 与 BERT 的区别示例
为了说明 XLNet 与 BERT 的区别,作者举了一个处理 “New York is a city” 的例子。这个可以直接通过两个模型的公式得到。假设我们要处理 New York 这个单词,BERT 将直接 mask 这两个 tokens,使用 “is a city” 作为上下文进行预测,这样的处理忽略了 New 和 York 之间的关联;而 XLNet 则通过 permutation 的形式,可以使得模型获得更多如 York | New, is a city 这样的信息。
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!