超小型BERT中文版横空出世!模型只有16M,训练速度提升10倍( 六 )
第二种技术是跨层参数共享(cross-layer parameter sharing)。这种技术可以防止参数随着网络深度的增加而增加。
图5/15
BERT和ALBERT模型的规模
基于这些设计,ALBERT能够扩展到更大的版本,参数量仍然比BERT-large少,但是性能明显更好。
在 GLUE、SQuAD 和 RACE 三大自然语言理解基准测试上都得到了新的SOTA结果:在 RACE 上的准确率提高到 89.4%,在 GLUE 上的得分提高到 89.4,在 SQuAD 2.0 上的 F1 得分达到 92.2。
图6/15
表10:GLUE基准测试的State-of-the-art 结果。
推荐阅读
- 原神|260万粉日本UP主加入原神,还想玩中文版,却被钟离“教育”了
- 翻译|我的世界:梗体中文版mc,这个翻译“蕨”了!来自阴间的译名~
- switch|有中文版! 《伊苏9》2021年夏季登陆switch
- 手机游戏|LOL手游上线一个多月,1.1.1大版本更新!台服支持中文版
- 莱莎的炼金工房2|莱莎的炼金工房2、真·三国无双8确定发售中文版
- Berty发布gomobile-ipfs,手机端也可以直接访问IPFS网络!
- 马斯克劲敌!MIT博士领衔初创已融30亿美元,将和Cybertruck交锋
- UG编程-UG怎么改中文版,改颜色,面版显示,面的分版
- 三星S11e渲染图曝光 李楠点评特斯拉Cybertruck
- 特斯拉电动皮卡Cybertruck发布;华为nova 6 5G曝光配打孔屏