1 感知机模型 感知机是一个二分类的线性模型,输入是实例的特征向量,输出是实例的类别,感知机对应于分离超平面。 2 感知机的学习策略 2.1 数据集线性可分 2.2 感知机学习策略 为找出一个超平面,即确定感知机的W和b,需要确定一个学习的策略,即定义经验损失函数并将其最小化。感知机采用的损失函数是误分类点到超平面的总距离。 输入空间一点到超平面的距离为 其中||w||是weight的2范数。 误分类点到分类平面的距离点为 所以感知机的损失函数为 其中M是误分类点的集合。 感知机的学习策略是在假设空间中选取使损失函数最小的模型参数w和b。 2.3 感知机的学习算法 2.3.1 感知机学习算法的原始形式 求解参数w和b,使其为一下损失函数极小化问题的解 感知机算法的原始形式: 当训练数据线性可分的时候,感知机算法是收敛的,但存在多种解,这种解即依赖于初值的选择,也依赖于迭代过程中点的选择顺序,为了得到唯一的一个超平面需要对超平面增加一个约束条件,当训练数据集不可分的时候,感知机算法不收敛,迭代结果发生震荡。感知机算法极小化的过程不是一次使所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降。 2.3.2 感知机的对偶形式 对一个误分类点(x,y),通过更新公式,修改w,b,设修改N次,w和b关于这个分类点的增量分别是axy和ay这里a=n*学习率,最后学习到的可以表示为 感知机算法的对偶形式: 对偶形式中输入仅以内积的形式计算,可以预先将训练集中的实例的内积计算出来,这就是Gram矩阵
转载请注明原文地址: https://ju.6miu.com/read-17329.html