8 篇论文梳理 BERT 相关模型( 六 )

Recurrence Mechanism

8 篇论文梳理 BERT 相关模型

图7/23

图 4:Recurrence Mechanism 机制

该机制来自 Transformer-XL,即在处理下一个 segment 时结合上个 segment 的 hidden representation,使得模型能够获得更长距离的上下文信息。而在 XLNet 中,虽然在前端采用相对位置编码,但在表示 h_θ (x_) 的时候,涉及到的处理与 permutation 独立,因此还可以沿用这个机制。该机制使得 XLNet 在处理长文档时具有较好的优势。

XLNet 与 BERT 的区别示例

8 篇论文梳理 BERT 相关模型

图8/23

图 5:XLNet 与 BERT 的区别示例

为了说明 XLNet 与 BERT 的区别,作者举了一个处理 “New York is a city” 的例子。这个可以直接通过两个模型的公式得到。假设我们要处理 New York 这个单词,BERT 将直接 mask 这两个 tokens,使用 “is a city” 作为上下文进行预测,这样的处理忽略了 New 和 York 之间的关联;而 XLNet 则通过 permutation 的形式,可以使得模型获得更多如 York | New, is a city 这样的信息。

推荐阅读