8 篇论文梳理 BERT 相关模型(13)_图1

图 8：MT-DNN 在不同任务之间的迁移能力

MT-DNN 具有不错的迁移能力。如上图所示，MT-DNN 只需要 23 个任务样本就可以在 SNLI 中获得 82% 的准确率！尤其是 BERT 在一些小数据集上微调可能存在无法收敛表现很差的情况，MT-DNN 就可以比较好地解决这一问题，同时节省了新任务上标注数据以及长时间微调的成本。

Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding

图17/23

图 9：使用知识蒸馏对 MT-DNN 模型进行优化

由于 MT-DNN 可以看作一个 ensemble 过程，所以就可以用知识蒸馏（Knowledge Distillation）进行优化，该方法能提升很多 ensemble 模型的表现，感兴趣的读者可以自行了解相关内容。

本文的知识蒸馏过程即对于不同的任务，使用相同的结构在对应的数据集上进行微调，这就可以看作每个任务的 Teacher，他们分别擅长解决对应的问题。

8 篇论文梳理 BERT 相关模型(13)