逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了( 二 )

2019-05-04

△ GPT-2在不同语言建模任务上的测试结果（从左到右：数据集名称、指标类型、GPT-2测试结果、此前最好结果、人类水平）一经问世就获得了Hinton等大牛的强推和关注。

简单来说，GPT-2就是基于Transformer架构的大规模模型。

GPT-2是GPT算法“进化版”，比GPT参数扩大10倍，达到了15亿个，数据量扩大10倍，使用了包含800万个网页的数据集，共有40GB。

这个庞大的算法使用语言建模作为训练信号，以无监督的方式在大型数据集上训练一个Transformer，然后在更小的监督数据集上微调这个模型，以帮助它解决特定任务。

上图左部分，是研究中使用的Transformer架构以及训练目标。右边部分，是针对特定任务进行微调。将所有结构化输入转换为token序列，由预训练模型处理，然后经过线性+softmax层处理。

推荐阅读

上一篇：原创<br> 为何每款vivo手机都备受用户喜爱？仅看vivo拍照技术发展就能明白

下一篇：人类有可能是宇宙中最高等级的文明吗？听完科学家的解释恍然大悟