引出
正则化项可以取不同的形式。例如回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:
这里,表示参数向量w的L2范数。
正则化项也可以是参数向量的L1范数:
这里表示参数向量w的L1范数。
L1和L2的定义
L1是绝对值之和,L2是平方之和。
更深层的含义
L1追求的是稀疏,可以理解为变量个数少,L2主要用于处理过拟合问题,让每个权重参数值小?!
L2能加速训练?!
引:
L0范数是指向量中非0元素的个数。如果我们用L0范数来规则化一个参数矩阵W,就是希望W的大部分元素都是0这太直观了,太露骨了吧,换句话说,让参数W是稀疏的。OK,看到了“稀疏”二字,大家都应该从当下风风火火的“压缩感知”和“稀疏编码”中醒悟过来,原来用的漫山遍野的“稀疏”就是通过这玩意来实现的。
转载请注明原文地址: https://ju.6miu.com/read-20685.html