8 篇论文梳理 BERT 相关模型( 五 )

8 篇论文梳理 BERT 相关模型

图4/23

但是在原来的公式中,我们只使用了 h_θ (x_(Z

此外,为了降低模型的优化难度,XLNet 使用了 Partial Prediction,即只预测当前 permutation 位置 c 之后的 token,最终优化目标如下所示。

8 篇论文梳理 BERT 相关模型

图5/23

Two-Stream Self-Attention

8 篇论文梳理 BERT 相关模型

图6/23

图 3:Two-Stream Self-Attention 机制

该机制所要解决的问题是,当我们获得了 g_θ (x_,z_t) 后,我们只有该位置信息以及 “上文” 的信息,不足以去预测该位置后的 token;而原来的 h_θ (x_) 则因为获取不到位置信息,依然不足以去预测。因此,XLNet 引入了 Two-Stream Self-Attention 机制,将两者结合起来。

推荐阅读