8 篇论文梳理 BERT 相关模型(13)
图 8:MT-DNN 在不同任务之间的迁移能力
MT-DNN 具有不错的迁移能力。如上图所示,MT-DNN 只需要 23 个任务样本就可以在 SNLI 中获得 82% 的准确率!尤其是 BERT 在一些小数据集上微调可能存在无法收敛表现很差的情况,MT-DNN 就可以比较好地解决这一问题,同时节省了新任务上标注数据以及长时间微调的成本。
Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding
图17/23
图 9:使用知识蒸馏对 MT-DNN 模型进行优化
由于 MT-DNN 可以看作一个 ensemble 过程,所以就可以用知识蒸馏(Knowledge Distillation)进行优化,该方法能提升很多 ensemble 模型的表现,感兴趣的读者可以自行了解相关内容。
本文的知识蒸馏过程即对于不同的任务,使用相同的结构在对应的数据集上进行微调,这就可以看作每个任务的 Teacher,他们分别擅长解决对应的问题。
推荐阅读
- 式神|阴阳师:(SSR篇)PVE向辅助式神梳理,御魂配置与阵容构建解析
- 崩坏3|崩坏3兔女郎事件后续梳理,玩家同意关国服,声优二创引争议
- 生化危机8|《生化危机 8:村庄》讲了什么?剧情故事完全梳理与背景解读
- 原神|经典游戏《豪血寺一族》关系梳理,剪不断理还乱的家族血统
- 阿轲|王者荣耀:S22更新思路梳理,版本之子已预定,阿轲胜率将猛升!
- 云计算需求提前大规模爆发,产业链公司梳理
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 论文查重选择合适软件需要看哪些方面
- 论文怎么免费查重找对软件才是关键
- 论文数据哪里找?这些网站不能少!