超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍( 四 )

下图是模型作者提供的ALBERT_TINY与BERT_base的对比。可以看到,在参数减少了60倍的情况下,训练速度提升了7倍,预测速度提升了近13倍!

超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍

图2/15

我们再来看一个比较全面的对比,ALBERT_TINY只有1.8M的身材在几个BERT中显得异常突出:

超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍

图3/15

关于ChineseGLUE:中文语言理解测评基准,包括代表性的数据集、基准(预训练)模型、语料库、排行榜。作者会选择一系列有一定代表性的任务对应的数据集,作为测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

相比大型的模型例如BERT、GPT等,ALBERT_TINY这种超小型的模型更适合一些对比较简单但对实时性有较高要求的任务上,例如语义相似度等句子对任务、分类任务等等。

推荐阅读