21种NLP任务激活函数大比拼：你一定猜不到谁赢了( 九 )_选自arXiv机器之心编译参与：panda在用

为了得到更深入的见解，我们计算了所有 17 个 mini 实验上的获胜统计情况，统计了每种激活函数位居前三的次数。结果见表 5，其中排除了 prelu 和 maxout 函数，因为它们没有在所有 mini 实验中测试。

图8/8

表 5：获得前三名的次数统计。括号中是进入前三的次数，仅给出了至少 4 次进入前三的激活函数。

可以看到，penalized tanh 和 swish 在「表现最佳」类别中胜出，之后是整流系函数。「表现平均」类别的获胜者无疑是通过使用有限范围来使激活函数饱和而获胜的。如果将比较限制在句子和文档分类（包含 maxout 函数），则 penalized tanh 在「表现平均」类别上优于 maxout。

似乎能够得出结论了：在各种超参数设置上，范围有限的函数表现更稳定，而非饱和函数往往能得到更好的最佳表现。penalized tanh 是值得一提的例外，它在这两个类别上都有很好的表现（成本更高的 maxout 函数是另一个例外）。如果 penalized tanh 在原点附近的斜率是其表现良好的原因，那么这也可以解释 cube 为何表现如此之差，因为它在原点附近非常平坦。