拆解XLNet模型设计,回顾语言表征学习的思想演进( 六 )

自回归语言模型的优点是计算效率比较高。我们只要对["我1", "今天2", "很3", “开心4”, “5”, “因为6”, “我7”, “中8”, “了9”, “彩票10”]这句话做一次表征计算,便可以得到许多输入输出对的语境表征:(["我"] "今天"),(["我", "今天"] "很"),(["我", "今天", "很"] "开心") 等等。

自回归语言模型也是自然语言生成的标准方案 -- 一个句子的生成可以转化成以前面的片段为语境,预测下一个词的任务。而新预测的词可以拼到已经生成的片段,作为预测下一个词所依据的语境。

由于可以对语境进行建模,预训练词表征便可以从语境无关的词向量变成基于语境的词表征 (Contextual Representation)。再结合增大数据量带来的巨大增益,这也使得 2018 年发表的 ELMo 成为自然语言处理领域第一个刷榜的大新闻。

但这种语境建模方式只使用了目标词左边 (右边) 单方向的所有词,所以预测任务仍然会存在歧义。语料中输入输出对 (["我", "今天", "很"] "开心") 和 (["我", "今天", "很"] "伤心") 都有可能出现,所以模型学不到 "开心" 和 "伤心" 的区别。

推荐阅读