超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍( 六 )

第二种技术是跨层参数共享(cross-layer parameter sharing)。这种技术可以防止参数随着网络深度的增加而增加。

超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍

图5/15

BERT和ALBERT模型的规模

基于这些设计,ALBERT能够扩展到更大的版本,参数量仍然比BERT-large少,但是性能明显更好。

在 GLUE、SQuAD 和 RACE 三大自然语言理解基准测试上都得到了新的SOTA结果:在 RACE 上的准确率提高到 89.4%,在 GLUE 上的得分提高到 89.4,在 SQuAD 2.0 上的 F1 得分达到 92.2。

超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍

图6/15

表10:GLUE基准测试的State-of-the-art 结果。

超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍

推荐阅读