拆解XLNet模型设计，回顾语言表征学习的思想演进_机器之心发布作者：追一科技AILab研究

机器之心发布

作者：追一科技 AI Lab 研究员 Tony

在预训练语言模型 BERT 对自然语言处理的冲击还未平息时，CMU 和 Google 的研究员又放出了一个猛料：在 20 多项任务上全线碾压 BERT 的 XLNet。：由于在公众号中插入方式不方便，对于一个符号 "a^"，"" 代表下标，"" 代表上标。

1. 语言表征学习

深度学习的基本单元是向量。我们将建模对象对应到各自的向量 x (或者一组向量 x, x, ..., x)，然后通过变换、整合得到新的向量 h，再基于向量 h 得到输出的判断 y。这里的 h 就是我们说的表征 (Representation)，它是一个向量，描述了我们的建模对象。而语言表征学习就是解决怎么样将一个词、一句话、一篇文章通过变换 (Transformation)和整合 (Aggregation)转化成对应的向量 h 的问题。

深度学习解决这个问题的办法是人工设计一个带有可调参数的模型，通过指定一系列的 (输入输出) 对 (x y)，让模型学习得到最优的参数。当参数确定之后，模型除了可以完成从 x 预测 y 的任务之外，其中间把 x 变换成 h 的方法也是可以用到其他任务的。这也是我们为什么要做表征学习。