8 篇论文梳理 BERT 相关模型( 四 )

Two-Stream Self-Attention

Recurrence Mechanism

接下来我们将分别介绍这三种机制。

Permutation Language Model

8 篇论文梳理 BERT 相关模型

图3/23

图 2:XLNet 模型框架图

在预测某个 token 时,XLNet 使用输入的 permutation 获取双向的上下文信息,同时维持自回归模型原有的单向形式。这样的好处是可以不用改变输入顺序,只需在内部处理。

它的实现采用了一种比较巧妙的方式:使用 token 在 permutation 的位置计算上下文信息。如对于,当前有一个 2 -> 4 ->3 ->1 的排列,那么我们就取出 token_2 和 token_4 作为 AR 的输入预测 token_3。不难理解,当所有 permutation 取完时,我们就能获得所有的上下文信息。

这样就得到了我们的目标公式:

推荐阅读