逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了( 二 )
△ GPT-2在不同语言建模任务上的测试结果(从左到右:数据集名称、指标类型、GPT-2测试结果、此前最好结果、人类水平)一经问世就获得了Hinton等大牛的强推和关注。
简单来说,GPT-2就是基于Transformer架构的大规模模型。
GPT-2是GPT算法“进化版”,比GPT参数扩大10倍,达到了15亿个,数据量扩大10倍,使用了包含800万个网页的数据集,共有40GB。
这个庞大的算法使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。
上图左部分,是研究中使用的Transformer架构以及训练目标。右边部分,是针对特定任务进行微调。将所有结构化输入转换为token序列,由预训练模型处理,然后经过线性+softmax层处理。
推荐阅读
- |MT 正在让游戏本地化质量变得更差?
- 伊隆·马斯克|EDG夺冠翻译小姐姐火了!穿印花旗袍大秀中国美,三门语言切换超牛
- edg战队|EDG赛后美女翻译上热搜!精通4国语言为国争光,网红学霸颜值高!
- ag战队|狼队12-0零封暴打AG,Fly马超逆天,一诺虞姬狂送被猪哼疯狂指责
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 李九|秋季赛德服极限抢龙,率队完成逆天翻盘!李九盛赞:辕门射戟?
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 亚索|GODV误入神仙局,第一次知道英雄联盟居然有这些逆天脚本
- 率土之滨|又一场零封,Zven逆天表现惊呆众解说,网友:管泽元想笑就笑吧