TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品( 三 )_机器之心报道参与：张倩、杜伟BERT等大

图1/8

图 1：Transformer 蒸馏概览图。

在这篇论文中，student 和 teacher 网络都是通过 Transformer 层构建的。为了表述清楚，研究者在详解 TinyBERT 之前阐述了以下问题。

假定 student 模型有 M 个 Transformer 层，teacher 模型有 N 个 Transformer 层，从 teacher 模型中选择 M 个 Transformer 层用于 Transformer 层蒸馏。n=g(m) 是 student 层到 teacher 层的映射函数，这意味着 student 模型的第 m 层从 teacher 模型的第 n 层开始学习信息。嵌入层蒸馏和预测层蒸馏也考虑进来，将嵌入层的指数设为 0，预测层的指数设为 M+1，并且对应的层映射分别定义为 0 = g(0) 和 N + 1 = g(M + 1)。下文实验部分将探讨不同的映射函数对性能的影响。在形式上，通过最小化以下目标函数，student 模型可以获取 teacher 模型的知识：

其中 L_layer 是给定模型层（如 Transformer 层或嵌入层）的损失函数，λ_m 是表征第 m 层蒸馏重要度的超参数。