Linear Classification

    xiaoxiao2021-03-25  74

    linear classification Parameterized mapping from images to label scores Interpreting a linear classifierLoss function Multiclass Support Vector Machine lossSVMSoftmax classifierSVM vs Softmax

    linear classification

    关键是两个函数: score function: 数据到分类的映射 loss function: 计算相差程度

    Parameterized mapping from images to label scores

    training set: xi(D维向量) label : yi label categories: K sample number: N score function: Rd>Rk

    linear classifier: f(xi,W,b)=Wxi+b 维度: xi:[D:1] W: [k:D] (weights) b: [K:1] (bias vector) note: Wxi is evaluating D separate classifiers in parallel.每个分类器都是W中的一行

    Interpreting a linear classifier

    将图像看成高维的点:traning set就是一个点的集合,每个点带有一个label。 W就是对空间的一个分割,任意改变W的一行会导致其中一个分割面的旋转,b是必要的,不谈强制每个分割面经过原点。 也可以将每一行想成模板,内积表示匹配程度。

    为了简化,可以将xi中增加元素1,同时将b合并到W中,得到f(xi,W,b)=Wxi+b

    Image data preprocessing: it’s important to center data 每个feature 减去平均值,使得每个像素的值大约在[-127, 127]。更进一步应该将每个像素值缩放在[-1,1]区间内,zero mean centering is very important

    Loss function

    就是把不满意的程度量化

    Multiclass Support Vector Machine loss(SVM)

    希望在正确的分类上的得分比不正确的分类上的得分高一个边界值Δ

    Li=∑(j≠yimax(0,sj−syi+Δ)=Li=∑j≠yimax(0,wTjxi−wTyixi+Δ)Li=∑j≠yimax(0,wjTxi−wyiTxi+Δ)(公式不好打,还是找对应的课件看) 意思就是不正确的分类上的值和正确分类上的值一定要相差Δ以上(正确分类上的值大),差不到Δ的部分就要算进Li里面,Li越大说明不好。

    Regularization: extending the loss function with a regularization penalty R(W) 完整公式为Li取平均之后,加上λR(w)一个好处是使得没有一个Wij可以对整体有过分大的影响。权重小而且分散。(可以避免过拟合)

    Setting Delta. 大多数情况下设置成1,因为真正控制的是lamda(regularization strength )

    Softmax classifier

    cross-entropy loss Li=−fyi+log∑jefj,整个training set的损失值还是Li的平均值和R(W)的和。 softmax function:(∑(j) e^fyi/e^fj). 输出的每个元素在[0,1]之间,且和为1.也就是希望得到正确的概率密度。 Numeric stability 因为存在指数项,所以可能得到大的数值,可以分子分母同时乘以一个常数项,使得f的数值整体进行偏移。

    SVM vs Softmax

    SVM:将结果看成分类评分,希望存在一个边界值 Softmax:希望通过对数概率,希望正确的分类的对数概率高。权重惩罚的多的时候,会导致权重取小,从而算出来的概率更加分散。softmax对于分数是不会满意的,损失值可以一直达到很小, 两者的数值没有可比性。

    转载请注明原文地址: https://ju.6miu.com/read-34620.html

    最新回复(0)