TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品( 四 )

研究者提出的 Transformer 层蒸馏包含基于注意力的蒸馏和基于隐状态的蒸馏,具体可参考上图 1(b)。基于注意力的蒸馏是为了鼓励语言知识从 teacherBERT 迁移到 student TinyBERT 模型中。具体而言,student 网络学习如何拟合 teacher 网络中多头注意力的矩阵,目标函数定义如下:

TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品

图2/8

其中,h 是注意力头数。A_i ∈ R^( l×l) 是与 teacher 或 student 的第 i 个注意力头对应的注意力矩阵。

此外,(非归一化)注意力矩阵 A_i 用作拟合目标,而不是其 softmax 输出的 softmax(A_i),因为实验表明前者的设置呈现更快的收敛速度和更佳的性能。除了基于注意力的蒸馏之外,研究者还对 Transformer 层输出的知识进行蒸馏处理(具体可参考上图 1(b)),目标函数定义如下:

其中 H^S∈R^l×d'和 H^T∈R^l×d 分别表示 student 和 teacher 网络的隐状态,由方程式 4 计算得到。标量值 d 和 d'分别表示 teacher 和 student 模型的隐状态,并且 d'通常小于 d,以获得更小的 student 网络。

推荐阅读