拆解XLNet模型设计,回顾语言表征学习的思想演进(20)
图6/6
XLNet 的成功来自于三点:
分布式语义假设的有效性,即我们确实可以从语料的统计规律中习得常识及语言的结构。
对语境更加精细的建模:从"单向"语境到"双向"语境,从"短程"依赖到"长程"依赖,XLNet 是目前对语境建模最精细的模型。
在模型容量足够大时,数据量的对数和性能提升在一定范围内接近正比 [3] [4]:XLNet 使用的预训练数据量可能是公开模型里面最大的。
可以预见的是资源丰富的大厂可以闭着眼睛继续顺着第三点往前走,或许还能造出些大新闻出来,这也是深度学习给的承诺。这些大新闻的存在也渐渐堵住调参式的工作的未来,迫使研究者去思考更加底层,更加深刻的问题。
对语境的更精细建模自然是继续发展的道路,以语言模型为代表的预训练任务和下游任务之间的关系也亟待探讨。
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了
- 原神|原神:新5星角色埃洛伊值得培养吗?拆解技能机制,告诉你答案!