8 篇论文梳理 BERT 相关模型(12)

4. MT-DNN 与知识蒸馏

Multi-Task Deep Neural Networks for Natural Language Understanding

这篇论文旨在将 Multi-Task 与 BERT 结合起来,使得模型能在更多的数据上进行训练的同时还能获得更好的迁移能力(Transfer Ability)。

8 篇论文梳理 BERT 相关模型

图15/23

图 7:MT-DNN 模型框架以及训练算法

模型架构如上图所示,在输入以及 Transformer 层,采用与 BERT 相同的机制,但是在后续处理不同任务数据时使用不同的任务参数与输出的表示做点积(Dot Production),用不同的激活函数(Activation Function)和损失函数(Loss Function)进行训练。

8 篇论文梳理 BERT 相关模型

图16/23

推荐阅读