8 篇论文梳理 BERT 相关模型( 三 )_图1

图 1：XLNet 和 BERT 对比图

我们知道，BERT 是典型的自编码模型（Autoencoder)，旨在从引入噪声的数据重建原数据。而 BERT 的预训练过程采用了降噪自编码（Variational Autoencoder）思想，即 MLM（Mask Language Model）机制，区别于自回归模型（Autoregressive Model），最大的贡献在于使得模型获得了双向的上下文信息，但是会存在一些问题：

1. Pretrain-finetune Discrepancy：预训练时的 [MASK] 在微调（fine-tuning）时并不会出现，使得两个过程不一致，这不利于 Learning。

2. Independence Assumption：每个 token 的预测是相互独立的。而类似于 New York 这样的 Entity，New 和 York 是存在关联的，这个假设则忽略了这样的情况。

自回归模型不存在第二个问题，但传统的自回归模型是单向的。XLNet 团队想做的，就是让自回归模型也获得双向上下文信息，并避免第一个问题的出现。

他们主要使用了以下三个机制：

Permutation Language Model