拆解XLNet模型设计,回顾语言表征学习的思想演进(13)

从概率模型的角度考虑,上述对样本的采样方式的不同对应了对句子概率 P("我1", "今天2", "很3", “开心4”, “5”, “因为6”, “我7”, “中8”, “了9”, “彩票10”)的不同分解。

对于自回归语言模型,其分解方式为P("我 1")P("今天 2" |"我 1")P("很 3"|"我 1", "今天 2")P("开心 4"|"我 1", "今天 2", "很 3")...

对于乱序语言模型,其分解方式可以为P("我 1")P("开心 4"|"我 1")P("今天 2"|"我 1","开心 4")P("很 3"|"我 1","今天 2","开心 4")...

每一种分解方式由一个随机排列 z 确定,如上述分解方式对应z = [z ,z , z , z , ...] ["我 1""今天 2""开心 4""很 3" ...]

其中 z 代表随机排列的第 t 个词。乱序语言模型是自回归语言模型的一种推广,因为 z 可以是原来序列的顺序。

乱序语言模型的语境可以同时来自目标词的前向和后向,所以其建模了双向的依赖。每个被预测的词 (除最后一个词外) 都会加入到语境中,所以既解决了 BERT 忽略被替换的词间的依赖关系的问题,又解决了 BERT 不同目标词依赖的语境趋同的问题。相比于 BERT 一次性输入几乎所有的语境信息,乱序语言模型可以认为是对双向语境进行了采样 (或者 Embedding Dropout),这会产生类似于 Dropout 效果,可以让模型学出更鲁棒的语境依赖。

推荐阅读