标签(空格分隔): 机器学习教程·李航统计学习方法
逻辑斯蒂:logistic 李航书中称之为:逻辑斯蒂回归模型 周志华书中称之为:对数几率回归模型 Andrew NG书中称之为:逻辑回归 ……好吧!好多不同的名称,其实都是一种方法,晕了好久……
为了利用逻辑斯蒂分布去进行回归问题的分析,首先,必须知道什么是逻辑斯蒂分布,所以,本节主要讨论逻辑斯蒂分布,它是一个连续分布,与高斯分布非常像;
The Logistic distribution is a continuous probability density function that is symmetric and uni-modal. It is similar in appearance to the Normal distribution and in practical applications, the two distributions cannot be distinguished from one another.
由于logistic分布的分布函数(S型)的良好的数学性质,使得它的概率密度函数具有对称性,从而,经常使用logistic分布区近似其他具有对称概率密度函数的分布
logistic分布的这种S-shapesd的分布,称为Logistic regression model,其用来对某个输入最可能的输出进行预测
logistic CDF(分布函数、cumulative distribution function)的S-shaped曲线,实际上可以描述了某一个事件发生的可能性
二项逻辑斯蒂回归模型的应用场景: 两类分类问题,期 Y∈{1,0} 另:样本 x 具有n个特征,即x∈Rn
二项逻辑斯蒂回归模型具体形式:
⎧⎩⎨⎪⎪⎪⎪⎪⎪P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=0|x)=11+exp(w⋅x+b) 注1: P(Y=1|x)+P(Y=0|x)=1 注2:上面的二项逻辑斯蒂回归模型其实就是一个二项分布的形式,即一次试验的结果要么为1、要么为0,其中,结果为1的概率利用逻辑斯蒂分布给出最终类别的判定: 对于给定的样本 x ,利用二项逻辑斯蒂回归模型计算该样本类别为1和0的概率,然后,将样本x分类到概率较大的那一类
二项逻辑斯蒂回归模型的紧凑形式:对输入向量进行扩充,添加一个1,从而,可以将参数向量 w 和偏移量b写在一起,仍记为 w ,此时,逻辑回归模型为: ⎧⎩⎨⎪⎪⎪⎪⎪⎪P(Y=1|x)=exp(wx)1 exp(wx)P(Y=0|x)=11 exp(wx) 注: w⋅x+b=w1x1+⋯+wnxn+b=(w1,⋯,wn,b)T(x1,⋯,xn,1)=w∗x ,新的 w∗ 仍记做 w
首先,给出“几率”的定义:某个事件发生的概率为p,那么,该事件的几率为 p1−p (发生的概率与不发生的概率之比)
接下来分析二项逻辑斯蒂模型中的第一项 P(Y=1|x)=exp(wx)1+exp(wx)
经分析发现: P(Y=1|x)1−P(Y=1|x)=ewx ,则有: log(P(Y=1|x)1−P(Y=1|x))=wx 其中, log(P(Y=1|x)1−P(Y=1|x)) 称为对数几率也就是说,输出Y=1对应的对数几率是由输入x的线性函数表示的模型 wx 从另外一个角度:对输入x的线性函数 wx 进行逻辑斯蒂函数计算,得到该样本属于Y=1的概率经过前面分析可以看到,二项逻辑斯蒂回归模型具体形式为:
⎧⎩⎨⎪⎪⎪⎪⎪⎪P(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx)该模型具有一个位置的参数向量 w ,那么如何能够利用训练数据集求得该参数向量?最直观的方式就是利用极大似然估计:
对于某一个输入样本x,它的类别为 y ,那么,它取得y的概率到底为多大呢?根据逻辑斯蒂回归模型的定义,这个概率与y的具体取值有关: ⎧⎩⎨⎪⎪⎪⎪⎪⎪y=1时,p=exp(wx)1+exp(wx)⇒π(x)y=0时,p=11+exp(wx)⇒1−π(x) 上式可以写为一个紧凑的形式,即 p=π(x)y⋅[1−π(x)]1−y 即对于逻辑斯蒂回归模型而言,某个输入样本 x 对应的输出为y的概率为 p=π(x)y⋅[1−π(x)]1−y 基于极大似然估计的思想:给定 N 个样本,最优的参数应该是使得这给定的N个样本的联合概率密度 ∏Ni=1pi (即似然函数)取得最大的参数w^*,即 w∗=argmaxw∏i=1Npi=argmaxw∏i=1Nπ(xi)yi⋅[1−π(xi)]1−yi 具体实现中,不直接最大化 N 个样本的似然函数,而是利用对数似然函数的最大化 w∗=argmaxwlog(∏i=1Npi) 其中, L(w)=log(∏i=1Npi)=∑i=1Nlogpi=∑i=1Nlog(π(xi)yi⋅[1−π(xi)]1−yi)=∑i=1Nyilogπ(xi)+(1−yi)log[1−π(xi)]=∑i=1Nyilog(π(xi))−yilog(1−π(xi))+log(1−π(xi))=∑i=1Nyilog(π(xi)1−π(xi))+log(1−π(xi)) 再将 π(x) 代入,可以得到 L(w)=∑i=1N[yi(wxi)−log(1+exp(wxi))] 最终 w∗=argmaxwL(w)=argmaxw∑i=1N[yi(wxi)−log(1+exp(wxi))] 得到的最终模型即为 ⎧⎩⎨⎪⎪⎪⎪⎪⎪P(Y=1|x)=exp(w∗x)1+exp(w∗x)P(Y=0|x)=11+exp(w∗x)二项逻辑斯蒂回归模型用于且仅能用于2类分类问题,如果是多类分类问题,需要对二项逻辑斯蒂回归模型进行拓展,得到多项逻辑斯蒂回归模型
对于某一个输入样本 x ,它的输出类别的取值可能有多个(K个),此时,不能再用二项分布来描述这种分布了,而是需要利用多项式分布来描述类别的分布 取得每一个类别的概率还是以逻辑斯蒂分布的形式描述 即[1] Logistic Distribution - Paul Johnson.PDF or [2] 统计学习方法·李航·6.1 [3] Introduction to Probability, Statistics, and Random Processes by Hossein Pishro-Nik