TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品( 六 )_机器之心报道参与：张倩、杜伟BERT等大

图3/8

图 2：TinyBERT 的两段式学习图示。

通用蒸馏可以帮助 student TinyBERT 学习到 teacher BERT 中嵌入的丰富知识，对于提升 TinyBERT 的泛化能力至关重要。特定于任务的蒸馏赋予 student 模型特定于任务的知识。这种两段式蒸馏可以缩小 teacher 和 student 模型之间的差距。

通用蒸馏

在通用蒸馏中，研究者使用原始 BERT 作为 teacher 模型，而且不对其进行微调，利用大规模文本语料库作为学习数据。通过在通用领域文本上执行 Transformer 蒸馏，他们获取了一个通用 TinyBERT，可以针对下游任务进行微调。然而，由于隐藏/嵌入层大小及层数显著降低，通用 TinyBERT 的表现不如 BERT。

针对特定任务的蒸馏

研究者提出通过针对特定任务的蒸馏来获得有竞争力的微调 TinyBERT 模型。而在蒸馏过程中，他们在针对特定任务的增强数据集上（如图 2 所示）重新执行了提出的 Transformer 蒸馏。具体而言，微调的 BERT 用作 teacher 模型，并提出以数据增强方法来扩展针对特定任务的训练集。