21种NLP任务激活函数大比拼:你一定猜不到谁赢了( 三 )

人们已经为激活函数认定了多种被认为对学习成功很重要的特征属性,比如与它们的导数相关的属性、单调性以及它们的范围是否有限。但是,Ramachandran et al. (2017) 在近期一项研究中使用了自动搜索来寻找表现优良的全新激活函数,他们的搜索空间包含了基本一元和二元函数的组合,比如 max、min、sin、tanh 或 exp。他们发现很多函数都不具备被认为有用的属性,比如非单调激活函数或不满足 ReLU 保留梯度的属性的函数。

实际上,他们最成功的函数——他们称之为 swish,并不满足这两个条件。但是,和之前的工作一样,他们也只是在少数不同数据集和少数几类不同网络上对比评估了他们的新发现和(整流)基准激活函数——这些数据集通常取自 CIFAR(Krizhevsky, 2009)和 ImageNet(Russakovsky et al., 2015)等图像分类社区,使用的网络也通常是充斥着图像分类社区的深度卷积网络(Szegedy et al., 2016)。

就我们所知,人们还没有大规模地通过实验比较过不同激活函数在不同任务和网络架构上的表现,更别说在自然语言处理(NLP)领域了。究竟哪个激活函数在不同的 NLP 任务和常用 NLP 模型上表现最好最稳定?在此之前,这个问题一直都未能得到解答。

推荐阅读