21种NLP任务激活函数大比拼:你一定猜不到谁赢了( 四 )

我们用本研究填补了这一空白。(1)我们比较了 21 种不同的激活函数,包括 Ramachandran et al. (2017) 中通过自动搜索找到的 6 种表现最佳的激活函数;(2)我们采用了 3 种常见的 NLP 任务类型(句子分类、文档分类、序列标注),包含 8 项单个任务;(3)我们使用了 3 种常用的 NLP 架构,即 MLP、CNN 和 RNN。(4)我们在两个不同维度上比较了所有这些函数,即最佳表现和平均表现。

我们发现,在这些不同的任务上,一种很大程度上不为人知的激活函数「penalized tanh」(Xu et al., 2016)表现最稳定。我们还发现它能在 LSTM 单元中成功替代 tanh 和 sigmoid。我们进一步发现 Ramachandran et al. (2017) 中发现的大多数表现优异的函数在我们的任务上表现不佳。但 swish 是一个例外,它在多个任务上都表现不错,但并没有 penalized tanh 与其它函数稳定

2 理论

我们考虑了 21 种激活函数,其中 6 种是 Ramachandran et al. (2017) 中「全新」提出的。表 1 给出了这 6 种函数与 sigmoid 函数的形式。

推荐阅读