拆解XLNet模型设计,回顾语言表征学习的思想演进

机器之心发布

作者:追一科技 AI Lab 研究员 Tony

在预训练语言模型 BERT 对自然语言处理的冲击还未平息时,CMU 和 Google 的研究员又放出了一个猛料:在 20 多项任务上全线碾压 BERT 的 XLNet。:由于在公众号中插入方式不方便,对于一个符号 "a^","" 代表下标,"" 代表上标。

1. 语言表征学习

深度学习的基本单元是向量。我们将建模对象对应到各自的向量 x (或者一组向量 x, x, ..., x),然后通过变换、整合得到新的向量 h,再基于向量 h 得到输出的判断 y。这里的 h 就是我们说的表征 (Representation),它是一个向量,描述了我们的建模对象。而语言表征学习就是解决怎么样将一个词、一句话、一篇文章通过变换 (Transformation)和整合 (Aggregation)转化成对应的向量 h 的问题。

深度学习解决这个问题的办法是人工设计一个带有可调参数的模型,通过指定一系列的 (输入输出) 对 (x y),让模型学习得到最优的参数。当参数确定之后,模型除了可以完成从 x 预测 y 的任务之外,其中间把 x 变换成 h 的方法也是可以用到其他任务的。这也是我们为什么要做表征学习。

推荐阅读