8 篇论文梳理 BERT 相关模型( 四 )
Two-Stream Self-Attention
Recurrence Mechanism
接下来我们将分别介绍这三种机制。
Permutation Language Model
图3/23
图 2:XLNet 模型框架图
在预测某个 token 时,XLNet 使用输入的 permutation 获取双向的上下文信息,同时维持自回归模型原有的单向形式。这样的好处是可以不用改变输入顺序,只需在内部处理。
它的实现采用了一种比较巧妙的方式:使用 token 在 permutation 的位置计算上下文信息。如对于,当前有一个 2 -> 4 ->3 ->1 的排列,那么我们就取出 token_2 和 token_4 作为 AR 的输入预测 token_3。不难理解,当所有 permutation 取完时,我们就能获得所有的上下文信息。
这样就得到了我们的目标公式:
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!