拆解XLNet模型设计,回顾语言表征学习的思想演进(23)

[7] Michel P, Levy O, Neubig G. Are Sixteen Heads Really Better than One?[J]. arXiv preprint arXiv:1905.10650, 2019.

本文为机器之心发布,转载请联系本公众号获得授权。

------------------------------------------------

版权声明:本文仅代表作者观点,不代表手机腾讯网立场。版权归自媒体所有,未经许可不得转载。

推荐阅读