原创<br> 8种优秀预训练模型大盘点,NLP应用so easy!( 五 )

Transformer模型

Transformer架构是NLP近期最核心的发展,2017年由谷歌提出。当时,用于语言处理任务(如机器翻译和问答系统)的是循环神经网络(RNN)。

Transformer架构的性能比RNN和CNN(卷积神经网络)要好,训练模型所需的计算资源也更少,这对于每个使用NLP的人来说都是双赢。看看下面的比较:

原创<br> 8种优秀预训练模型大盘点,NLP应用so easy!

各模型的英德翻译质量

根据Google的说法,Transformer模型“应用了一种自注意力机制,可直接模拟句子中所有单词之间的关系,而无需理会其各自的位置如何”。它使用固定长度上下文(也就是前面的单词)来实现。太复杂了?没事,我们举一例子简单说明。

有句话“She found the shells on the bank of the river.”此时模型需要明白,这里的“bank”是指岸边,而不是金融机构(银行)。Transformer模型只需一步就能理解这一点。我希望你能阅读下面链接的完整论文,以了解其工作原理。它肯定会让你大吃一惊。

推荐阅读