TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品( 八 )

实验结果表明:1)TinyBERT 在所有 GlUE 任务中的表现都优于 BERTSMALL,平均性能提升了 6.3%,表明本文提出的 KD 学习框架可以有效地提升小模型在下游任务中的性能;2)TinyBERT 显著超越了 KD SOTA 基线(即 BERT-PKD 和 DistillBERT),比 BERT-PKD 高出 3.9%(见图 2),但参数只有基线模型的 28%,推理时间只有基线模型的 31% 左右(见图 3);3)与 teacher BERTBASE 相比,TinyBERT 的大小仅为前者的 13.3%,但速度却是前者的 9.4 倍,而且性能损失不大。4)TinyBERT 与 Distilled BiLSTM_SOFT 模型效率相当,在 BiLSTM 基线公开的所有任务中均显示出了明显的性能提升。5)对于具有挑战性的 CoLA 数据集,所有的蒸馏小模型与 teacher 模型的性能差距都比较大。TinyBERT 与基线模型相比实现了显著的性能提升,如果利用更深、更宽的模型来捕获更复杂的语言信息,它的性能还能进一步提升。

模型大小的影响

为了测试模型大小对性能的影响,研究者在几个典型的 GLUE 任务中测试了不同大小 TinyBERT 模型的性能。结果如下表 4 所示:

TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品

推荐阅读