李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型

    xiaoxiao2021-12-15  40

    第6章 logistic regression与最大熵模型(1)·逻辑斯蒂回归模型

    标签(空格分隔): 机器学习教程·李航统计学习方法


    第6章 logistic regression与最大熵模型1逻辑斯蒂回归模型Logistic distribution 1 一维逻辑斯蒂分布的数学定义2 logistic分布的均值和方差3 何时需要用到Logistic分布 二项逻辑斯蒂回归模型及其特点 1 二项逻辑斯蒂回归模型2 二项逻辑斯蒂回归模型的特点 二项逻辑斯蒂回归模型参数的估计多项逻辑斯蒂回归二项逻辑斯蒂回归和多项逻辑斯蒂回归参考文献

    逻辑斯蒂:logistic 李航书中称之为:逻辑斯蒂回归模型 周志华书中称之为:对数几率回归模型 Andrew NG书中称之为:逻辑回归 ……好吧!好多不同的名称,其实都是一种方法,晕了好久……


    为了利用逻辑斯蒂分布去进行回归问题的分析,首先,必须知道什么是逻辑斯蒂分布,所以,本节主要讨论逻辑斯蒂分布,它是一个连续分布,与高斯分布非常像;

    1 Logistic distribution

    The Logistic distribution is a continuous probability density function that is symmetric and uni-modal. It is similar in appearance to the Normal distribution and in practical applications, the two distributions cannot be distinguished from one another.

    1.1 一维逻辑斯蒂分布的数学定义

    分布函数 F(x)=11+e(xμ)/σ 注1:也可以写成 F(x)=e(xμ)/σe(xμ)/σ+1 注2:分布函数(即概率累积函数)的导数 F(x)=(1+e(xμ)/σ)(1+e(xμ)/σ)2=(1σ)e(xμ)/σ(1+e(xμ)/σ)2=1σe(xμ)/σ(1+e(xμ)/σ)2 概率密度函数 f(x)=1σe(xμ)/σ(1+e(xμ)/σ)2 logistic涉及两个参数 μ :location,控制分布函数的中心位置,或者说是概率密度函数对称轴的位置 σ :scale,该参数控制着 f(x) 的宽和高;其值越大, f(x) 越矮越胖 注:其实该参数 σ 与正态分布的 σ 含义相同,只不过相差了一个系数 π23 (这个数字来自于logistic distribution的方差),

    1.2 logistic分布的均值和方差

    均值: E(x)=μ 方差: Var(x)=13(πσ)2 考察高斯分布 N(μ,σ2) ,它的均值为 μ ,方差为 σ2 : 可以看到,logistic分布的方差 σ2π23 与高斯分布方差只是差了一个常数项 π23 所以说,logistic分布与高斯分布非常相似如下图所示,分别绘制出了参数为(0,1)的logistic分布和参数为(0, π23 )的高斯分布的密度函数,此时,二者的方差取值相同(都为 π23 ),可以看到,此时的logistic概率密度函数和高斯函数概率密度函数非常接近

    1.3 何时需要用到Logistic分布

    由于logistic分布的分布函数(S型)的良好的数学性质,使得它的概率密度函数具有对称性,从而,经常使用logistic分布区近似其他具有对称概率密度函数的分布

    logistic分布的这种S-shapesd的分布,称为Logistic regression model,其用来对某个输入最可能的输出进行预测

    logistic CDF(分布函数、cumulative distribution function)的S-shaped曲线,实际上可以描述了某一个事件发生的可能性

    2. 二项逻辑斯蒂回归模型及其特点

    2.1 二项逻辑斯蒂回归模型

    上面讨论了逻辑斯蒂分布,接下来将该分布应用到机器学习的分类问题中!假设我们要解决的问题为一个二分类问题,那么,可以利用逻辑斯蒂分布来对二分类模型建模,即对于一个样本x,它的类别要么为1,要么为0,我们设定它为1的概率为逻辑斯蒂分布中的概率分布形式,那么,它为0的概率也就是1-P(y=0);这里的“二项”一词,与二项分布的意义相同(一次试验的结果要么为1要么为0),一个样本类别要么为1要么为0

    二项逻辑斯蒂回归模型的应用场景: 两类分类问题,期 Y{1,0} 另:样本 x 具有n个特征,即xRn

    二项逻辑斯蒂回归模型具体形式:

    P(Y=1|x)=exp(wx+b)1+exp(wx+b)P(Y=0|x)=11+exp(wx+b)

    注1: P(Y=1|x)+P(Y=0|x)=1 注2:上面的二项逻辑斯蒂回归模型其实就是一个二项分布的形式,即一次试验的结果要么为1、要么为0,其中,结果为1的概率利用逻辑斯蒂分布给出

    最终类别的判定: 对于给定的样本 x ,利用二项逻辑斯蒂回归模型计算该样本类别为1和0的概率,然后,将样本x分类到概率较大的那一类

    二项逻辑斯蒂回归模型的紧凑形式:对输入向量进行扩充,添加一个1,从而,可以将参数向量 w 和偏移量b写在一起,仍记为 w ,此时,逻辑回归模型为: P(Y=1|x)=exp(wx)1 exp(wx)P(Y=0|x)=11 exp(wx) 注: wx+b=w1x1++wnxn+b=(w1,,wn,b)T(x1,,xn,1)=wx ,新的 w 仍记做 w

    2.2 二项逻辑斯蒂回归模型的特点

    首先,给出“几率”的定义:某个事件发生的概率为p,那么,该事件的几率为 p1p (发生的概率与不发生的概率之比)

    接下来分析二项逻辑斯蒂模型中的第一项 P(Y=1|x)=exp(wx)1+exp(wx)

    经分析发现: P(Y=1|x)1P(Y=1|x)=ewx ,则有: log(P(Y=1|x)1P(Y=1|x))=wx 其中, log(P(Y=1|x)1P(Y=1|x)) 称为对数几率也就是说,输出Y=1对应的对数几率是由输入x的线性函数表示的模型 wx 从另外一个角度:对输入x的线性函数 wx 进行逻辑斯蒂函数计算,得到该样本属于Y=1的概率

    3. 二项逻辑斯蒂回归模型参数的估计

    经过前面分析可以看到,二项逻辑斯蒂回归模型具体形式为:

    P(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx)

    该模型具有一个位置的参数向量 w ,那么如何能够利用训练数据集求得该参数向量?最直观的方式就是利用极大似然估计:

    对于某一个输入样本x,它的类别为 y ,那么,它取得y的概率到底为多大呢?根据逻辑斯蒂回归模型的定义,这个概率与y的具体取值有关:

    y=1p=exp(wx)1+exp(wx)π(x)y=0p=11+exp(wx)1π(x) 上式可以写为一个紧凑的形式,即 p=π(x)y[1π(x)]1y 即对于逻辑斯蒂回归模型而言,某个输入样本 x 对应的输出为y的概率为 p=π(x)y[1π(x)]1y 基于极大似然估计的思想:给定 N 个样本,最优的参数应该是使得这给定的N个样本的联合概率密度 Ni=1pi (即似然函数)取得最大的参数w^*,即 w=argmaxwi=1Npi=argmaxwi=1Nπ(xi)yi[1π(xi)]1yi 具体实现中,不直接最大化 N 个样本的似然函数,而是利用对数似然函数的最大化 w=argmaxwlog(i=1Npi) 其中, L(w)=log(i=1Npi)=i=1Nlogpi=i=1Nlog(π(xi)yi[1π(xi)]1yi)=i=1Nyilogπ(xi)+(1yi)log[1π(xi)]=i=1Nyilog(π(xi))yilog(1π(xi))+log(1π(xi))=i=1Nyilog(π(xi)1π(xi))+log(1π(xi)) 再将 π(x) 代入,可以得到 L(w)=i=1N[yi(wxi)log(1+exp(wxi))] 最终 w=argmaxwL(w)=argmaxwi=1N[yi(wxi)log(1+exp(wxi))] 得到的最终模型即为 P(Y=1|x)=exp(wx)1+exp(wx)P(Y=0|x)=11+exp(wx)

    4 多项逻辑斯蒂回归

    二项逻辑斯蒂回归模型用于且仅能用于2类分类问题,如果是多类分类问题,需要对二项逻辑斯蒂回归模型进行拓展,得到多项逻辑斯蒂回归模型

    对于某一个输入样本 x ,它的输出类别的取值可能有多个(K个),此时,不能再用二项分布来描述这种分布了,而是需要利用多项式分布来描述类别的分布 取得每一个类别的概率还是以逻辑斯蒂分布的形式描述 即

    5 二项逻辑斯蒂回归和多项逻辑斯蒂回归

    二项逻辑斯蒂回归:它可能的取值为二项分布(0-1)分布,取得每一个数值的概率可以利用逻辑斯蒂分布表示 可能的取值 1 0 概率 exp(wx)1 exp(wx) 11+exp(wx) 解释 逻辑斯蒂分布函数的形式 1- 逻辑斯蒂分布函数的形式 多项逻辑斯蒂回归:它可能的取值为多项式分布,取得每一个数值的概率可以利用逻辑斯蒂分布表示 可能的取值12….K概率 exp(w1x)1+exp(w1x++wK1x) exp(w2x)1+exp(w1x++wK1x) …. 11+exp(w1x++wK1x) 解释逻辑斯蒂分布函数的形式逻辑斯蒂分布函数的形式….1- 逻辑斯蒂分布函数的形

    参考文献

    [1] Logistic Distribution - Paul Johnson.PDF or [2] 统计学习方法·李航·6.1 [3] Introduction to Probability, Statistics, and Random Processes by Hossein Pishro-Nik


    转载请注明原文地址: https://ju.6miu.com/read-1000042.html

    最新回复(0)