超小型BERT中文版横空出世！模型只有16M，训练速度提升10倍( 五 )_图1

ALBERT_TINY还有一个非常实用的功能，就是用来衡量一个文本任务的难易程度，在一个任务上对比ALBERT_TINY的精度和BERT的精度即可。如果精度下降在可控范围，比如说2-3个点，那么这个任务肯定是相对简单的；如果下降太多，任务就相对难一些。下降越多，任务越难。

图4/15

ALBERT：只瘦身，效果不打折！

谷歌推出的ALBERT是BERT的精简版，目标是训练出体积更小且更好用的模型。研究人员在ALBERT中引入了两种参数减少技术，以降低内存消耗并提高训练速度。虽然参数减少了，但效果不打折，直接登顶了SQuAD 2.0，RACE和GLUE。

ALBERT制霸三大基准测试，ALBERT用了两招：

第一个技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个小的矩阵，将隐藏层的大小与词汇表嵌入的大小分离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下，更容易增加隐藏大小。

超小型BERT中文版横空出世！模型只有16M，训练速度提升10倍( 五 )