超小型BERT中文版横空出世！模型只有16M，训练速度提升10倍( 六 )

2019-10-17

第二种技术是跨层参数共享(cross-layer parameter sharing)。这种技术可以防止参数随着网络深度的增加而增加。

图5/15

BERT和ALBERT模型的规模

基于这些设计，ALBERT能够扩展到更大的版本，参数量仍然比BERT-large少，但是性能明显更好。

在 GLUE、SQuAD 和 RACE 三大自然语言理解基准测试上都得到了新的SOTA结果：在 RACE 上的准确率提高到 89.4%，在 GLUE 上的得分提高到 89.4，在 SQuAD 2.0 上的 F1 得分达到 92.2。

图6/15

表10：GLUE基准测试的State-of-the-art 结果。

推荐阅读

上一篇：中国邮政携手腾讯“丰收季”扶贫助农，为优质农产品打通销路

下一篇：NASA公布40年首款全新太空服，登月不再“兔子跳”