超小型BERT中文版横空出世！模型只有16M，训练速度提升10倍( 七 )_图1

图7/15

表11：在SQuAD 和 RACE 两个基准测试上的State-of-the-art 结果

中文预训练ALBERT模型

随后，中文预训练ALBERT模型ALBERT_ZH上线。这不是谷歌出的，而是由徐亮基于ALBERT开发，是一个更加精简的版本。相比ALBERT，ALBERT_ZH参数少了90%！但精度并没有损失。同时还支持TensorFlow、PyTorch和Keras。

别看体积小，它可是建立在海量中文语料基础上，30G中文语料，超过100亿汉字，包括多个百科、新闻、互动社区。

预训练序列长度sequence_length设置为512，批次batch_size为4096，训练产生了3.5亿个训练数据(instance)；每一个模型默认会训练125k步，ALBERT_xxlarge将训练更久。

作为比较，roBERTa_zh预训练产生了2.5亿个训练数据、序列长度为256。由于ALBERT_zh预训练生成的训练数据更多、使用的序列长度更长。

模型性能与对比(英文)

超小型BERT中文版横空出世！模型只有16M，训练速度提升10倍( 七 )