L1与L2正则化

机器学习

更小的权值，从某种意义上讲，表示网络的复杂度更低，对数据的拟合刚刚好（这个法则也叫作奥卡姆剃刀）
简单理解就是，权重变小了，表示模型对每个参数样本的依赖性就不那么大了，就减小了过拟合；

另，可参考：https://morvanzhou.github.io/tutorials/machine-learning/ML-intro/3-09-l1l2regularization/

L1倾向于把一些参数置为0，即能够剔除某些特征在模型中的作用（特征选择），即具有“稀疏能力”
L2可以得迅速得到比较小的权值，但是难以收敛到0，所以产生的不是稀疏而是平滑的效果，同时L2范数可以防止过拟合，提升模型的泛化能力
L1不稳定（蓝色椭圆形线表示w1，w2取不同值时loss值的等高线，黄色线表示正则化项的等高线，白色交点处是两者和即正则化后误差的最小值）

L1为啥会稀疏？L2为啥平滑？（也可以结合下面的公式推导说明）

L1和L2为何会起到正则化效果？

求导推导即可（很简单）

L1中w绝对值的求导：w为正，求导后系数为1，否则为-1

推导过程如下：

参考：https://blog.csdn.net/u012162613/article/details/44261657