华为推出AI诗人“乐府”:唐诗宋词都不在话下( 六 )
在对联中,因为没有主题,就上句为主题,第二行为正文。所以,在生成对联的时候,就成了给出上联,生成下联的模式,也符合了“对对子”的习惯。
整体的数据集规模并不小,预训练用的中文新闻语料库,有2.35亿句子。微调用的数据集有25万绝句和律师,2万首词以及70万对对联。
预训练是在华为云上完成的,使用8块英伟达V100(16G) GPU训练了4个echo,一共耗费了90个小时。
微调的过程是将所有诗歌序列输入Transformer,并训练一个自回归语言模型。目标是观测任何序列的概率最大化:
微调的过程,不需要特别长的时间,如果训练过长,这个模型就在生成过程中,就会倾向于从语料库中直接用原始句子了。
训练完成后,先将要生成的诗歌的格式和主题转化为一个初始序列,然后将初始序列输入到模型中,然后对诗体部分的剩余字段按token进行解码。
推荐阅读
- 地下城与勇士|DNF即将推出手游,已进入倒计时,炽天使觉醒将更名光明颂唱者
- nest|自走棋出现近3年之后,Supercell推出了自己的自走棋新品
- 新世界|游戏推出一个多月就在研究合服,《新世界》如今情况如何?
- 永劫无间|《永劫无间》新英雄\岳山\在测试服推出,游戏性能进一步提升
- 大话西游|大话西游2近几年推出的新玩法效果如何?基本和普通玩家无关
- 王者荣耀|魔兽世界:新总裁要让WOW重新伟大!9.15推出超多良心改动
- 镇魔曲|网易爆款游戏《镇魔曲》
- 史诗之路|DNF:神话自选来了!策划推出“超级深渊”,欧皇可获得全身红10
- 蓝洞|跌落神坛?蓝洞耕耘四年推出吃鸡后新作,画面却像网页小游戏
- 逆水寒|世纪佳缘名声坐实后,逆水寒又对标QQ?推出隐身功能引玩家热议