L1和L2的区别和各自的优势

    xiaoxiao2021-03-25  316

    引出

    正则化项可以取不同的形式。例如回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:

    这里,表示参数向量w的L2范数。

    正则化项也可以是参数向量的L1范数:

    这里表示参数向量w的L1范数。

    L1和L2的定义

    L1是绝对值之和,L2是平方之和。

    更深层的含义

    L1追求的是稀疏,可以理解为变量个数少,L2主要用于处理过拟合问题,让每个权重参数值小?!

    L2能加速训练?!


    引:

    L0范数是指向量中非0元素的个数。如果我们用L0范数来规则化一个参数矩阵W,就是希望W的大部分元素都是0这太直观了,太露骨了吧,换句话说,让参数W是稀疏的。OK,看到了“稀疏”二字,大家都应该从当下风风火火的“压缩感知”和“稀疏编码”中醒悟过来,原来用的漫山遍野的“稀疏”就是通过这玩意来实现的。

    转载请注明原文地址: https://ju.6miu.com/read-20685.html

    最新回复(0)