华为开源预训练语言模型「哪吒」:编码、掩码升级,提升多项中文 NLP 任务性能( 四 )

预训练语言模型本质上 , 就是神经网络语言模型 。 它主要有两个特点 , 即:可以使用大规模无标注纯文本语料进行训练 , 以及可以用于各类下游 NLP 任务 , 各项性能指标均获得大幅度提高 , 并可以将各类下游任务的解决方案统一简化为集中固定的 fine-tune 框架 。

\n

预训练语言模型通常有两个大类型 。 一类是 Encoder , 用于自然语言理解 , 输入整个文章 , 用于自然语言理解;另一类是 Decoder , 是解码式的 , 用于自然语言生成 , 只能来看到已经生成的内容 , 看不到没有生成的内容 , 这两类模型有所区别 。

\n

更直观来看 , github 上来自清华大学的两位同学——王晓智和张正彦(在读本科生)整理的一份关于预训练模型的关系图 , 则可以从功能方面更简单明了的帮我们理解该类模型类别 。

\n

预训练模型的关系图

\n

更多详细内容 , 可参见 PLM 论文整理 Github 项目地址:

\n

https://github.com/thunlp/PLMpapers

\n

推荐阅读