拆解XLNet模型设计,回顾语言表征学习的思想演进(13)
从概率模型的角度考虑,上述对样本的采样方式的不同对应了对句子概率 P("我1", "今天2", "很3", “开心4”, “5”, “因为6”, “我7”, “中8”, “了9”, “彩票10”)的不同分解。
对于自回归语言模型,其分解方式为P("我 1")P("今天 2" |"我 1")P("很 3"|"我 1", "今天 2")P("开心 4"|"我 1", "今天 2", "很 3")...
对于乱序语言模型,其分解方式可以为P("我 1")P("开心 4"|"我 1")P("今天 2"|"我 1","开心 4")P("很 3"|"我 1","今天 2","开心 4")...
每一种分解方式由一个随机排列 z 确定,如上述分解方式对应z = [z ,z , z , z , ...] ["我 1""今天 2""开心 4""很 3" ...]
其中 z 代表随机排列的第 t 个词。乱序语言模型是自回归语言模型的一种推广,因为 z 可以是原来序列的顺序。
乱序语言模型的语境可以同时来自目标词的前向和后向,所以其建模了双向的依赖。每个被预测的词 (除最后一个词外) 都会加入到语境中,所以既解决了 BERT 忽略被替换的词间的依赖关系的问题,又解决了 BERT 不同目标词依赖的语境趋同的问题。相比于 BERT 一次性输入几乎所有的语境信息,乱序语言模型可以认为是对双向语境进行了采样 (或者 Embedding Dropout),这会产生类似于 Dropout 效果,可以让模型学出更鲁棒的语境依赖。
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!