拆解XLNet模型设计,回顾语言表征学习的思想演进( 二 )

所以我们要解决的问题便是:

怎么确定 (输入输出) 对,即模型的预测任务

这个模型怎么设计

2. 分布式语义假设

任何任务都可以用来做表征学习:情感分析 (输入句子,判断句子是正向情感还是负向情感),机器翻译 (输入中文,输出英文)。但是这些任务的缺点是需要大量的人工标注,这些标注耗时耗力。当标注量不够时,模型很容易学出"三长一短选最短"的取巧方案 -- 但我们想要的是真正的语言理解。

所幸语言学的研究中有一个重要的假设 --分布式语义假设 (Distributional Hypothesis):

One shall know a word by the company it keeps.[1]

我们可以通过一个词出现的语境知道这个词的意思。

所以我们可以将输入 x 定为目标词的语境,输出 y 定为目标词。这个任务的优点是我们并不需要人工标注的数据,只需要许多有意义的语段就可以了 -- 而在信息爆炸的互联网时代,这种数据是取之不尽的。

推荐阅读