正则化-权重衰减
若添加了正则化项,反向求梯度的时候也要对正则化项求导
当添加正则项,若正则项前面的参数过大,要想减小损失函数的值只能是w趋于0,w趋于0减少了神经网络中神经元的影响,相当于屏蔽了一些神经元,使网络变得简单
以激活函数tanh为例,z=xw+b,正则化参数大,w小,z就小,激活范围就在原点周围,类似于线性函数,无法表示复杂的决策函数,减轻了过拟合
另一种思维就是若将总的损失看作是损失和正则项的总和,想要总的损失最小,就需要在损失和正则项之间找到一个平衡,正则项限制了参数的取值范围,防止参数取值过大
计算梯度需要明白矩阵如何求导,求导这块也说明选用L2正则的原因,若选用L1范数,求导后该项只有一个常数,对于权重本身比较小的特征影响更大,被清为0的概率更大。
添加了L2正则的损失函数对权重求导,更新参数时,原始权重会先乘一个<1的数,此时权重衰减了。