21种NLP任务激活函数大比拼：你一定猜不到谁赢了( 四 )_选自arXiv机器之心编译参与：panda在用

我们用本研究填补了这一空白。（1）我们比较了 21 种不同的激活函数，包括 Ramachandran et al. (2017) 中通过自动搜索找到的 6 种表现最佳的激活函数；（2）我们采用了 3 种常见的 NLP 任务类型（句子分类、文档分类、序列标注），包含 8 项单个任务；（3）我们使用了 3 种常用的 NLP 架构，即 MLP、CNN 和 RNN。（4）我们在两个不同维度上比较了所有这些函数，即最佳表现和平均表现。

我们发现，在这些不同的任务上，一种很大程度上不为人知的激活函数「penalized tanh」（Xu et al., 2016）表现最稳定。我们还发现它能在 LSTM 单元中成功替代 tanh 和 sigmoid。我们进一步发现 Ramachandran et al. (2017) 中发现的大多数表现优异的函数在我们的任务上表现不佳。但 swish 是一个例外，它在多个任务上都表现不错，但并没有 penalized tanh 与其它函数稳定

2 理论

我们考虑了 21 种激活函数，其中 6 种是 Ramachandran et al. (2017) 中「全新」提出的。表 1 给出了这 6 种函数与 sigmoid 函数的形式。