8 篇论文梳理 BERT 相关模型( 五 )

2019-09-09

图4/23

但是在原来的公式中，我们只使用了 h_θ (x_(Z

此外，为了降低模型的优化难度，XLNet 使用了 Partial Prediction，即只预测当前 permutation 位置 c 之后的 token，最终优化目标如下所示。

图5/23

Two-Stream Self-Attention

图6/23

图 3：Two-Stream Self-Attention 机制

该机制所要解决的问题是，当我们获得了 g_θ (x_,z_t) 后，我们只有该位置信息以及 “上文” 的信息，不足以去预测该位置后的 token；而原来的 h_θ (x_) 则因为获取不到位置信息，依然不足以去预测。因此，XLNet 引入了 Two-Stream Self-Attention 机制，将两者结合起来。

推荐阅读

上一篇：NeurIPS 2019论文盘点：谷歌系最多，国内清华第一

下一篇：非数据分析的16条建议，给抖音