21种NLP任务激活函数大比拼:你一定猜不到谁赢了( 九 )

为了得到更深入的见解,我们计算了所有 17 个 mini 实验上的获胜统计情况,统计了每种激活函数位居前三的次数。结果见表 5,其中排除了 prelu 和 maxout 函数,因为它们没有在所有 mini 实验中测试。

21种NLP任务激活函数大比拼:你一定猜不到谁赢了

图8/8

表 5:获得前三名的次数统计。括号中是进入前三的次数,仅给出了至少 4 次进入前三的激活函数。

可以看到,penalized tanh 和 swish 在「表现最佳」类别中胜出,之后是整流系函数。「表现平均」类别的获胜者无疑是通过使用有限范围来使激活函数饱和而获胜的。如果将比较限制在句子和文档分类(包含 maxout 函数),则 penalized tanh 在「表现平均」类别上优于 maxout。

似乎能够得出结论了:在各种超参数设置上,范围有限的函数表现更稳定,而非饱和函数往往能得到更好的最佳表现。penalized tanh 是值得一提的例外,它在这两个类别上都有很好的表现(成本更高的 maxout 函数是另一个例外)。如果 penalized tanh 在原点附近的斜率是其表现良好的原因,那么这也可以解释 cube 为何表现如此之差,因为它在原点附近非常平坦。

推荐阅读