TinyBERT:模型小7倍,速度快8倍,华中科大、华为出品( 八 )
实验结果表明:1)TinyBERT 在所有 GlUE 任务中的表现都优于 BERTSMALL,平均性能提升了 6.3%,表明本文提出的 KD 学习框架可以有效地提升小模型在下游任务中的性能;2)TinyBERT 显著超越了 KD SOTA 基线(即 BERT-PKD 和 DistillBERT),比 BERT-PKD 高出 3.9%(见图 2),但参数只有基线模型的 28%,推理时间只有基线模型的 31% 左右(见图 3);3)与 teacher BERTBASE 相比,TinyBERT 的大小仅为前者的 13.3%,但速度却是前者的 9.4 倍,而且性能损失不大。4)TinyBERT 与 Distilled BiLSTM_SOFT 模型效率相当,在 BiLSTM 基线公开的所有任务中均显示出了明显的性能提升。5)对于具有挑战性的 CoLA 数据集,所有的蒸馏小模型与 teacher 模型的性能差距都比较大。TinyBERT 与基线模型相比实现了显著的性能提升,如果利用更深、更宽的模型来捕获更复杂的语言信息,它的性能还能进一步提升。
模型大小的影响
为了测试模型大小对性能的影响,研究者在几个典型的 GLUE 任务中测试了不同大小 TinyBERT 模型的性能。结果如下表 4 所示:
推荐阅读
- 魔兽世界怀旧服|这款盼了好久的模型级别机甲积木终于来了
- dota2|DOTA:为什么很多dota1玩家以dota2模型太丑画风不好拒绝玩2
- 双城之战|《双城之战》上线在即,LOL女警迎来模型升级,全部皮肤升级更新
- 生化危机|《生化危机》初代改编桌游1天内达成众筹,筹金是预期的7倍
- 白鲨|?打破GameFi“死亡螺旋”的困境,浅析Murphy的经济模型
- 黄忠|王者荣耀:5款返场皮肤提前锁定,6位英雄加强解析,金蝉模型更新
- 孙尚香|?王者荣耀:备好88碎片!水果甜心加入碎片商店,新模型特效美翻了
- ttg|原神:新角色一斗模型曝光,首个五星岩系大C登场?新武器属性一览
- 原神|原神:关于心海的几件事,别只看模型,策划强抬是有原因的!
- 雷神|原神:草神设计图曝光?多个人物模型确认,稻妻地图太“阴间”了