原创<br> 8种优秀预训练模型大盘点，NLP应用so easy！( 五 )_：8种优秀预训练模型大盘点

Transformer模型

Transformer架构是NLP近期最核心的发展，2017年由谷歌提出。当时，用于语言处理任务（如机器翻译和问答系统）的是循环神经网络（RNN）。

Transformer架构的性能比RNN和CNN（卷积神经网络）要好，训练模型所需的计算资源也更少，这对于每个使用NLP的人来说都是双赢。看看下面的比较：

各模型的英德翻译质量

根据Google的说法，Transformer模型“应用了一种自注意力机制，可直接模拟句子中所有单词之间的关系，而无需理会其各自的位置如何”。它使用固定长度上下文（也就是前面的单词）来实现。太复杂了？没事，我们举一例子简单说明。

有句话“She found the shells on the bank of the river.”此时模型需要明白，这里的“bank”是指岸边，而不是金融机构（银行）。Transformer模型只需一步就能理解这一点。我希望你能阅读下面链接的完整论文，以了解其工作原理。它肯定会让你大吃一惊。

原创<br> 8种优秀预训练模型大盘点，NLP应用so easy！( 五 )