21种NLP任务激活函数大比拼:你一定猜不到谁赢了( 十 )

超参数的影响

为了直观地了解超参数影响我们的不同激活函数的方式,我们在测试集上在所有使用的超参数上对激活函数的分数进行了回归操作。比如,我们估计了:

其中 y 是在测试集上的分数,n_l 是网络中层的数量,d 是 dropout 值等等。每个回归量 k 的系数 α_k 是我们想要估计的值(尤其是它们的大小和符号)。我们对规模(比如单元数、过滤器数)显著大于其它变量的特定变量求取了对数。对于优化器等离散回归量,我们使用了二元哑变量(binary dummy variables)。我们为每个激活函数和每个 mini 实验独立地估计了(1)式。

整体而言,结果呈现出非常多样化的模式,这让我们无法得出很确定的结果。尽管如此,我们还是观察到尽管所有模型在隐藏层更少时的表现平均更好,尤其是 swish 能稳健地应对更多隐藏层(较小的负系数 α_l),但 penalized tanh 的程度更小。在句子分类任务中,sin 和 maxout 函数能尤其稳健地应对隐藏层增多的情况。因为 penalized tanh 是一个饱和函数,sin 甚至是一个振荡函数,因此我们得出结论:保持梯度(导数接近 1)并非是成功学习更深度网络的必要前提条件。

推荐阅读