8 篇论文梳理 BERT 相关模型( 四 )_图1

Two-Stream Self-Attention

Recurrence Mechanism

接下来我们将分别介绍这三种机制。

Permutation Language Model

图3/23

图 2：XLNet 模型框架图

在预测某个 token 时，XLNet 使用输入的 permutation 获取双向的上下文信息，同时维持自回归模型原有的单向形式。这样的好处是可以不用改变输入顺序，只需在内部处理。

它的实现采用了一种比较巧妙的方式：使用 token 在 permutation 的位置计算上下文信息。如对于，当前有一个 2 -> 4 ->3 ->1 的排列，那么我们就取出 token_2 和 token_4 作为 AR 的输入预测 token_3。不难理解，当所有 permutation 取完时，我们就能获得所有的上下文信息。

这样就得到了我们的目标公式：