2018 年 Top 10 影响力 AI 研究论文( 二 )

论文思想要点

为了应对缺乏标注数据的问题,以及让 NLP 分类任务更轻松、更省时,他们提出了把迁移学习用在 NLP 问题中。这样,研究人员们不再需要从零开始训练新模型,只需要找到一个已经在相似的任务上训练完毕的模型作为基础,然后为新的具体问题微调这个模型即可。

然而,为了让这样的做法发挥出理想的效果,这个微调过程有几个细节需要注意:

网络中不同的层应该为不同的内容进行微调,因为它们捕捉的信息的类别也是有所不同的;把模型参数向新的具体任务适配时,让学习率先线性增加,再线性衰减,学习的效率会比较高;一次微调所有的层会带来灾难性的遗忘问题。所以,比较好的做法是一开始只更新最后一层的参数,然后逐步让前面的层也参与到微调中来。领域内学者评价

可以轻易得到的预训练 ImageNet 模型已经给整个计算机视觉界带来了巨大的改变。ULMFiT 也可以在 NLP 任务中起到同样的重要作用;这种方法可以用于任意语言上的任意 NLP 任务。全世界的研究人员们已经在德语、波兰语、海地语、印度尼西亚语、中文、马来语等许多语言上进行了尝试,同样得到了大幅进步的结果。未来可能的相关研究

推荐阅读