华为推出AI诗人“乐府”：唐诗宋词都不在话下( 五 )

2019-09-08

这背后的能量来自GPT，一个由OpenAI提出的预训练自然语言模型，核心理念是先用无标签的文本去训练生成语言模型，然后再根据具体的任务通过有标签的数据对模型进行微调。

乐府AI是首个基于GPT打造的作诗系统，而且与谷歌提出的BERT息息相关。

整体的GPT模型是在BERT的源代码基础上实现的，Transformer大小的配置与BERT-Base相同，也采用了BERT中发布的tokenization脚本和中文 vocab。

具体来说，训练诗歌生成模型的过程如下：

整个模型训练过程一共有两个阶段: 预训练和微调。

华为的这个GPT模型，是用一个中文新闻语料库进行预训练的，然后通过收集了公开可得的中国古诗词进行微调。

如上图所示，首先将示例诗歌转换为格式化序列。序列包括三个主要部分：格式、主题和诗体，中间用标识符分开。

推荐阅读

上一篇：iPhone 11背部Logo改为整体居中: 地主家都没有余粮, 还想反向充电?

下一篇：英国内阁又一大臣辞职在野党称约翰逊政府正在瓦解