8 篇论文梳理 BERT 相关模型( 五 )
图4/23
但是在原来的公式中,我们只使用了 h_θ (x_(Z
此外,为了降低模型的优化难度,XLNet 使用了 Partial Prediction,即只预测当前 permutation 位置 c 之后的 token,最终优化目标如下所示。
图5/23
Two-Stream Self-Attention
图6/23
图 3:Two-Stream Self-Attention 机制
该机制所要解决的问题是,当我们获得了 g_θ (x_,z_t) 后,我们只有该位置信息以及 “上文” 的信息,不足以去预测该位置后的 token;而原来的 h_θ (x_) 则因为获取不到位置信息,依然不足以去预测。因此,XLNet 引入了 Two-Stream Self-Attention 机制,将两者结合起来。
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!