超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍( 七 )

图7/15

表11:在SQuAD 和 RACE 两个基准测试上的State-of-the-art 结果

中文预训练ALBERT模型

随后,中文预训练ALBERT模型ALBERT_ZH上线。这不是谷歌出的,而是由徐亮基于ALBERT开发,是一个更加精简的版本。相比ALBERT,ALBERT_ZH参数少了90%!但精度并没有损失。同时还支持TensorFlow、PyTorch和Keras。

别看体积小,它可是建立在海量中文语料基础上,30G中文语料,超过100亿汉字,包括多个百科、新闻、互动社区。

预训练序列长度sequence_length设置为512,批次batch_size为4096,训练产生了3.5亿个训练数据(instance);每一个模型默认会训练125k步,ALBERT_xxlarge将训练更久。

作为比较,roBERTa_zh预训练产生了2.5亿个训练数据、序列长度为256。由于ALBERT_zh预训练生成的训练数据更多、使用的序列长度更长。

模型性能与对比(英文)

推荐阅读