21种NLP任务激活函数大比拼：你一定猜不到谁赢了( 二 )_选自arXiv机器之心编译参与：panda在用

我们发现一种很大程度上不为人知的激活函数在所有任务上都表现得最稳定，即所谓的 penalized tanh 函数。我们还表明它能在 LSTM 单元中成功替代 sigmoid 和 tanh 门，并能在一种高难度的 NLP 任务上取得优于标准选择 2 个百分点的表现。

1 引言

激活函数是神经网络的一大关键组件，因为它们可将原本线性的分类器转换成非线性的。神经网络近些年在众多任务上表现优异这一事实已经证明这种转换至关重要。尽管理论上而言，Sigmoid或 tanh 等不同的激活函数往往是等价的——它们都能近似任意的连续函数（Hornik, 1991），但不同的激活函数往往会在实践中表现出非常多样的行为。

举个例子，sigmoid 是一种在神经网络实践中占据了几十年主导地位的激活函数，最终却被证明不适用于学习，原因是（根据公认的看法）它的导数很小，这可能会导致梯度消失问题。在这方面，事实证明所谓的 ReLU 函数（Glorot et al., 2011）要更加适用得多。它在正的区域有一个恒等导数，因此宣称更不易受梯度消失问题的影响。因此它也已经成为了目前最流行的激活函数（有争议）。对 ReLU 的成功的认可让人们提出了多种扩展（Maas et al., 2013; He et al., 2015; Klambauer et al., 2017），但没有任何一种能一样受欢迎，原因很可能是 ReLU 很简洁，而不同扩展在不同数据集和模型上所报告的增益往往是不一致的或较低（Ramachandran et al., 2017）。