TinyBERT：模型小7倍，速度快8倍，华中科大、华为出品( 八 )_机器之心报道参与：张倩、杜伟BERT等大

实验结果表明：1）TinyBERT 在所有 GlUE 任务中的表现都优于 BERTSMALL，平均性能提升了 6.3%，表明本文提出的 KD 学习框架可以有效地提升小模型在下游任务中的性能；2）TinyBERT 显著超越了 KD SOTA 基线（即 BERT-PKD 和 DistillBERT），比 BERT-PKD 高出 3.9%（见图 2），但参数只有基线模型的 28%，推理时间只有基线模型的 31% 左右（见图 3）；3）与 teacher BERTBASE 相比，TinyBERT 的大小仅为前者的 13.3%，但速度却是前者的 9.4 倍，而且性能损失不大。4）TinyBERT 与 Distilled BiLSTM_SOFT 模型效率相当，在 BiLSTM 基线公开的所有任务中均显示出了明显的性能提升。5）对于具有挑战性的 CoLA 数据集，所有的蒸馏小模型与 teacher 模型的性能差距都比较大。TinyBERT 与基线模型相比实现了显著的性能提升，如果利用更深、更宽的模型来捕获更复杂的语言信息，它的性能还能进一步提升。

模型大小的影响

为了测试模型大小对性能的影响，研究者在几个典型的 GLUE 任务中测试了不同大小 TinyBERT 模型的性能。结果如下表 4 所示：