8 篇论文梳理 BERT 相关模型(12)

2019-09-09

4. MT-DNN 与知识蒸馏

Multi-Task Deep Neural Networks for Natural Language Understanding

这篇论文旨在将 Multi-Task 与 BERT 结合起来，使得模型能在更多的数据上进行训练的同时还能获得更好的迁移能力（Transfer Ability）。

图15/23

图 7：MT-DNN 模型框架以及训练算法

模型架构如上图所示，在输入以及 Transformer 层，采用与 BERT 相同的机制，但是在后续处理不同任务数据时使用不同的任务参数与输出的表示做点积（Dot Production），用不同的激活函数（Activation Function）和损失函数（Loss Function）进行训练。

图16/23

推荐阅读

上一篇：NeurIPS 2019论文盘点：谷歌系最多，国内清华第一

下一篇：非数据分析的16条建议，给抖音