L1与L2正则化

更小的权值,从某种意义上讲,表示网络的复杂度更低,对数据的拟合刚刚好(这个法则也叫作奥卡姆剃刀)
简单理解就是,权重变小了,表示模型对每个参数样本的依赖性就不那么大了,就减小了过拟合;

另,可参考:https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/3-09-l1l2regularization/

  • L1倾向于把一些参数置为0,即能够剔除某些特征在模型中的作用(特征选择),即具有“稀疏能力”

  • L2可以得迅速得到比较小的权值,但是难以收敛到0,所以产生的不是稀疏而是平滑的效果 ,同时L2范数可以防止过拟合,提升模型的泛化能力

  • L1不稳定(蓝色椭圆形线表示w1,w2取不同值时loss值的等高线,黄色线表示正则化项的等高线,白色交点处是两者和即正则化后误差的最小值)

L1为啥会稀疏?L2为啥平滑?(也可以结合下面的公式推导说明)

L1和L2为何会起到正则化效果?

求导推导即可(很简单)

  • L1中w绝对值的求导:w为正,求导后系数为1,否则为-1

推导过程如下:

参考:https://blog.csdn.net/u012162613/article/details/44261657