2018 年 Top 10 影响力 AI 研究论文( 二 )_：2018年Top10影响力AI研究论文AI科技

论文思想要点

为了应对缺乏标注数据的问题，以及让 NLP 分类任务更轻松、更省时，他们提出了把迁移学习用在 NLP 问题中。这样，研究人员们不再需要从零开始训练新模型，只需要找到一个已经在相似的任务上训练完毕的模型作为基础，然后为新的具体问题微调这个模型即可。

然而，为了让这样的做法发挥出理想的效果，这个微调过程有几个细节需要注意：

网络中不同的层应该为不同的内容进行微调，因为它们捕捉的信息的类别也是有所不同的；把模型参数向新的具体任务适配时，让学习率先线性增加，再线性衰减，学习的效率会比较高；一次微调所有的层会带来灾难性的遗忘问题。所以，比较好的做法是一开始只更新最后一层的参数，然后逐步让前面的层也参与到微调中来。领域内学者评价

可以轻易得到的预训练 ImageNet 模型已经给整个计算机视觉界带来了巨大的改变。ULMFiT 也可以在 NLP 任务中起到同样的重要作用；这种方法可以用于任意语言上的任意 NLP 任务。全世界的研究人员们已经在德语、波兰语、海地语、印度尼西亚语、中文、马来语等许多语言上进行了尝试，同样得到了大幅进步的结果。未来可能的相关研究