原创<br> 8种优秀预训练模型大盘点，NLP应用so easy！( 八 )_：8种优秀预训练模型大盘点

BERT预训练模型论文

https://www.paperswithcode.com/paper/bert-pre-training-of-deep-bidirectional#code

其他研究论文

https://arxiv.org/pdf/1810.04805.pdf

Transformer-XL模型（谷歌）

从长期来看，谷歌发布的版本对NLP而言是非常重要的。如果你是初学者，这个概念可能会有点棘手，所以我鼓励你多读几遍来掌握它。我还在本节下面提供了多种资源来帮助你开始使用Transformer-XL。

想象一下——你刚读到一本书的一半，突然出现了这本书开头提到的一个词或者一句话时，就能回忆起那是什么了。但可以理解，机器很难建立长期的记忆模型。

如上所述，要达成这个目的的一种方法是使用Transformers，但它们是在固定长度的上下文中实现的。换句话说，如果使用这种方法，就没有太大的灵活性。

Transformer-XL很好地弥补了这个差距。它由Google AI团队开发，是一种新颖的NLP架构，能够帮助机器理解超出固定长度限制的上下文。Transformer-XL的推理速度比传统的Transformer快1800倍。

原创<br> 8种优秀预训练模型大盘点，NLP应用so easy！( 八 )