隐藏单元

概述

这是前馈神经网络的一个特有研究问题：如何选择隐藏单元的类型。

一般来说，整流线性单元是隐藏单元很好的一个默认选择。另外有一些隐藏单元并不是在所有的输入点上都是可微的，流入：\(g(z)=max\{0, z\}\)在z=0处是不可微的，这使得g对于基于梯度的学习算法无效。但由于神经网络使用的函数通常对左导数和右导数都有定义，在这种情况下，在z=0的左导数是0，右导数是1。神经网络训练的软件实现通常返回左导数或者右导数的其中一个。

除非有特别说明，大多数隐藏单元都可以描述为接收输入向量x，计算仿射变换\(z = W^Tx+b\)，然后使用一个逐元素的非线性函数\(g(z)\)。

整流线性单元及其扩展

整流线性单元使用激活函数\(g(z)=max\{0, z\}\)。

在这种情况下，整流线性单元在其一半的定义域上输出为0，并且只要整流线性单元处于激活状态，它的导数都能保持比较大并一致。

整流线性单元通常作用于仿射变换之上： \[ h = g(W^Tx+b) \] 初始化的时候可以把b的所有元素设置为一个较小的正值，使得整流线性单元在初始时就能对大多数输入呈现激活状态。

至于扩展，都是基于当z<0时使用了一个非零的斜率：\(g(z, \alpha)_i=max(0, z_i) + \alpha_imin(0, z_i)\)。

绝对值整流（absolute value rectification）固定\(\alpha_i=-1\)，它用于图像中的对象识别，寻找在输入照明极性反转下不变的特征是有意义的；
渗透整流线性单元（Leakly ReLU）将固定\(\alpha_i=0.01\)之类的小值；
参数化整流线性单元（parametric ReLU）则是将其作为学习的参数；

maxout单元进一步做了扩展，它将z划分为每组具有k个值的组，买个maxout单元则输出每组中的最大元素： \[ g(z)_i = max z_j \] maxout 单元可以学习具有多达 k 段的分段线性的凸函数，在k足够大的情况下，maxout 单元可以以任意的精确度来近似任何凸函数。

logistic sigmoid与双曲正切函数

在引入整流线性单元之前,大多数神经网络使用 logistic sigmoid 激活函数： \[ g(z) = \sigma(z) \] 或者双曲正切激活函数： \[ g(z) = tanh(z) \] 其中,\(tanh(z)=2\sigma(2z)-1\)。

sigmoid 单元的广泛饱和性会使得基于梯度的学习变得非常困难。因为这个原因,现在不鼓励将它们用作前馈网络中的隐藏单元。而双曲正切激活函数通常要比 logistic sigmoid 函数表现更好。

而在一些不能使用分段激活函数的场景下，sigmoid的使用会更常见。