8 篇论文梳理 BERT 相关模型( 六 )_图1

Recurrence Mechanism

图7/23

图 4：Recurrence Mechanism 机制

该机制来自 Transformer-XL，即在处理下一个 segment 时结合上个 segment 的 hidden representation，使得模型能够获得更长距离的上下文信息。而在 XLNet 中，虽然在前端采用相对位置编码，但在表示 h_θ (x_) 的时候，涉及到的处理与 permutation 独立，因此还可以沿用这个机制。该机制使得 XLNet 在处理长文档时具有较好的优势。

XLNet 与 BERT 的区别示例

图8/23

图 5：XLNet 与 BERT 的区别示例

为了说明 XLNet 与 BERT 的区别，作者举了一个处理 “New York is a city” 的例子。这个可以直接通过两个模型的公式得到。假设我们要处理 New York 这个单词，BERT 将直接 mask 这两个 tokens，使用 “is a city” 作为上下文进行预测，这样的处理忽略了 New 和 York 之间的关联；而 XLNet 则通过 permutation 的形式，可以使得模型获得更多如 York | New, is a city 这样的信息。