超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍( 五 )

ALBERT_TINY还有一个非常实用的功能,就是用来衡量一个文本任务的难易程度,在一个任务上对比ALBERT_TINY的精度和BERT的精度即可。如果精度下降在可控范围,比如说2-3个点,那么这个任务肯定是相对简单的;如果下降太多,任务就相对难一些。下降越多,任务越难。

超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍

图4/15

ALBERT:只瘦身,效果不打折!

谷歌推出的ALBERT是BERT的精简版,目标是训练出体积更小且更好用的模型。研究人员在ALBERT中引入了两种参数减少技术,以降低内存消耗并提高训练速度。虽然参数减少了,但效果不打折,直接登顶了SQuAD 2.0,RACE和GLUE。

ALBERT制霸三大基准测试,ALBERT用了两招:

第一个技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个小的矩阵,将隐藏层的大小与词汇表嵌入的大小分离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情况下,更容易增加隐藏大小。

推荐阅读