激活函数篇 03 —— ReLU、LeakyReLU、ELU
本篇文章收录于专栏【机器学习】
以下是激活函数系列的相关的所有内容:
一文搞懂激活函数在神经网络中的关键作用
逻辑回归:Sigmoid函数在分类问题中的应用
整流线性单位函数(Rectified Linear Unit, ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
ReLU ( x ) = max ( 0 , x ) \text{ReLU}(x) = \max(0, x) ReLU(x)=max(0,x)
当输入 x > 0 x > 0 x>0 时,输出等于输入;当输入 x ≤ 0 x \leq 0 x≤0 时,输出为 0。
传统的激活函数如 Sigmoid 和 Tanh 存在梯度消失和计算效率较低的问题。ReLU 函数解决了这些问题,具有计算简单、不易出现梯度消失等特点。
应用场景
- 神经网络隐藏层:引入非线性,使网络能够学习复杂的特征表示。
- 输出层:在需要输出非负值的回归任务中使用。
- 特定任务:广泛应用于图像识别、自然语言处理等领域,如 CNN 和 RNN。
函数特点
- 控制输出范围:输出值限制在 [ 0 , ∞ ) [0, \infty) [0,∞),防止梯度消失或爆炸。
- 引入稀疏性:许多输出为零,减少模型复杂度,提高计算效率,防止过拟合。
- 提供可导性:其导数为:
ReLU ′ ( x ) = { 1 if x > 0 0 if x ≤ 0 \text{ReLU}'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases} ReLU′(x)={10if x>0if x≤0
- 优点:
- 计算简单,计算效率高。
- 不易出现梯度消失问题。
- 引入稀疏性,有助于减少模型复杂度,提高计算效率,防止过拟合。
- 缺点:
- 神经元死亡:当 x ≤ 0 x \leq 0 x≤0 时,导数为 0,可能导致神经元死亡。
- 输出不以 0 为中心,可能影响梯度稳定性。
ReLU 函数的两个变体
Leaky ReLU:是 ReLU 的一个变体,在输入小于等于 0 时有一个小的非零斜率 α \alpha α,从而避免了神经元死亡问题:
Leaky ReLU ( x ) = { x if x > 0 α x if x ≤ 0 \text{Leaky ReLU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases} Leaky ReLU(x)={xαxif x>0if x≤0
α \alpha α 是一个小常数,通常取 0.01。在反向传播过程中,对于LeakyReLU激活函数输入小于 0 0 0 的部分,也可以计算得到梯度(ReLU的值为0),这样就避免了梯度方向锯齿问题。
ELU,即指数线性单元(Exponential Linear Unit),解决神经网络训练中的一些问题,如梯度消失、非连续性以及输出均值偏离零等问题。
理想的激活函数应满足两个条件:
- 输出的分布是零均值的,加快训练速度。
- 激活函数是单侧饱和的,更好的收敛。
LeakyReLU满足1不满足2;而ReLU满足2不满足1,ELU 都满足。
ELU:在 x ≤ 0 x \leq 0 x≤0 时有平滑的指数衰减,解决神经元死亡问题,数学表达式为:
ELU ( x ) = { x if x > 0 α ( e x − 1 ) if x ≤ 0 \text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases} ELU(x)={xα(ex−1)if x>0if x≤0
特点
缓解梯度消失问题:当 ( x > 0 ),ELU 函数的行为类似于ReLU,允许直接传递输入,从而避免了梯度消失的问题。
对负值的处理更加温和:与ReLU不同的是,当 ( x < 0 ),ELU 不是简单地将它们置为0,而是通过指数函数给出一个非零的输出,这有助于保持网络中的信息流动。
输出的均值更接近于零:由于其在负区间内的特性,ELU 能够帮助神经网络学习到更具有鲁棒性的特征表示,并且倾向于产生更接近于零的输出均值,这对于加速学习过程是有益的。
ELU 的导数在 x > 0 x > 0 x>0 时为1,在 x < 0 x < 0 x<0 时为 α ⋅ e x \alpha \cdot e^x α⋅ex。特别地,在 x = 0 x = 0 x=0 处,通常认为其导数是连续的,取左侧或右侧极限值之一。
ELU 适用于需要减少偏移量并加快学习速度的任务,但计算上比ReLU稍微复杂一些,因为它涉及到指数运算。因此,在设计深度学习模型时,需权衡这些因素来决定最适合的激活函数。