8 篇论文梳理 BERT 相关模型(13)

图 8:MT-DNN 在不同任务之间的迁移能力

MT-DNN 具有不错的迁移能力。如上图所示,MT-DNN 只需要 23 个任务样本就可以在 SNLI 中获得 82% 的准确率!尤其是 BERT 在一些小数据集上微调可能存在无法收敛表现很差的情况,MT-DNN 就可以比较好地解决这一问题,同时节省了新任务上标注数据以及长时间微调的成本。

Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding

8 篇论文梳理 BERT 相关模型

图17/23

图 9:使用知识蒸馏对 MT-DNN 模型进行优化

由于 MT-DNN 可以看作一个 ensemble 过程,所以就可以用知识蒸馏(Knowledge Distillation)进行优化,该方法能提升很多 ensemble 模型的表现,感兴趣的读者可以自行了解相关内容。

本文的知识蒸馏过程即对于不同的任务,使用相同的结构在对应的数据集上进行微调,这就可以看作每个任务的 Teacher,他们分别擅长解决对应的问题。

推荐阅读