完全图解GPT-2:看完这篇就够了(二)(15)

这是第一个训练只包含解码器的 transformer 的任务。也就是说,该模型被训练来阅读维基百科的文章(没有目录前的开头部分),然后生成摘要。文章实际的开头部分被用作训练数据集的标签:

完全图解GPT-2:看完这篇就够了(二)

图31/36

论文使用维基百科的文章对模型进行了训练,训练好的模型能够生成文章的摘要:

完全图解GPT-2:看完这篇就够了(二)

图32/36

迁移学习

在论文「Sample Efficient Text Summarization Using a Single Pre-Trained Transformer」(https://arxiv.org/abs/1905.08836)中,首先使用只包含解码器的 transformer 在语言建模任务中进行预训练,然后通过调优来完成摘要生成任务。结果表明,在数据有限的情况下,该方案比预训练好的编码器-解码器 transformer 得到了更好的效果。

推荐阅读