TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品( 四 )_机器之心报道参与：张倩、杜伟BERT等大

研究者提出的 Transformer 层蒸馏包含基于注意力的蒸馏和基于隐状态的蒸馏，具体可参考上图 1（b）。基于注意力的蒸馏是为了鼓励语言知识从 teacherBERT 迁移到 student TinyBERT 模型中。具体而言，student 网络学习如何拟合 teacher 网络中多头注意力的矩阵，目标函数定义如下：

图2/8

其中，h 是注意力头数。A_i ∈ R^( l×l) 是与 teacher 或 student 的第 i 个注意力头对应的注意力矩阵。

此外，（非归一化）注意力矩阵 A_i 用作拟合目标，而不是其 softmax 输出的 softmax（A_i），因为实验表明前者的设置呈现更快的收敛速度和更佳的性能。除了基于注意力的蒸馏之外，研究者还对 Transformer 层输出的知识进行蒸馏处理（具体可参考上图 1（b）），目标函数定义如下：

其中 H^S∈R^l×d'和 H^T∈R^l×d 分别表示 student 和 teacher 网络的隐状态，由方程式 4 计算得到。标量值 d 和 d'分别表示 teacher 和 student 模型的隐状态，并且 d'通常小于 d，以获得更小的 student 网络。