L1和L2的区别和各自的优势

xiaoxiao2021-03-25 316

引出

正则化项可以取不同的形式。例如回归问题中，损失函数是平方损失，正则化项可以是参数向量的L2范数：

这里，表示参数向量w的L2范数。

正则化项也可以是参数向量的L1范数：

这里表示参数向量w的L1范数。

L1是绝对值之和，L2是平方之和。

L1追求的是稀疏，可以理解为变量个数少，L2主要用于处理过拟合问题，让每个权重参数值小？！

L2能加速训练？！

引：

L0范数是指向量中非0元素的个数。如果我们用L0范数来规则化一个参数矩阵W，就是希望W的大部分元素都是0这太直观了，太露骨了吧，换句话说，让参数W是稀疏的。OK，看到了“稀疏”二字，大家都应该从当下风风火火的“压缩感知”和“稀疏编码”中醒悟过来，原来用的漫山遍野的“稀疏”就是通过这玩意来实现的。

转载请注明原文地址: https://ju.6miu.com/read-20685.html

最新回复(0)