李航 统计学习方法 第一章 课后 习题 答案

    xiaoxiao2021-04-13  31

    ####1.1 统计学习方法的三要素是模型、策略、算法。

    伯努利模型是定义在取值为0与1的随机变量上的概率分布。

    统计学分为两派:经典统计学派和贝叶斯统计学派。两者的不同主要是,经典统计学派认为模型已定,参数未知,参数是固定的,只是还不知道;贝叶斯统计学派是通过观察到的现象对概率分布中的主观认定不断进行修正。

    极大似然估计和贝叶斯估计的模型都是伯努利模型也就是条件概率模型;极大似然估计用的是经典统计学派的策略,贝叶斯估计用的是贝叶斯统计学派的策略;为了得到使经验风险最小的参数值,使用的算法都是对经验风险求导,使导数为0.

    定义随机变量A为一次伯努利试验的结果,A的取值为 { 0 , 1 } \{0,1\} {0,1},概率分布为 P ( A ) P(A) P(A) P ( A = 1 ) = θ P ( A = 0 ) = 1 − θ P(A=1)=\theta \\ P(A=0)=1-\theta P(A=1)=θP(A=0)=1θ

    下面分布用极大似然估计和贝叶斯估计来估计 θ \theta θ 的值。

    极大似然估计: L ( θ ) = ∏ i = 1 n P ( A i ) = θ k ( 1 − θ ) n − k L(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k} L(θ)=i=1nP(Ai)=θk(1θ)nk A i A_i Ai代表第i次随机试验。 θ = a r g max ⁡ θ L ( θ ) = k n \theta=arg\max \limits_\theta L(\theta)=\frac{k}{n} θ=argθmaxL(θ)=nk

    贝叶斯估计: P ( θ ∣ A 1 , A 2 , . . . , A n ) = P ( A 1 , A 2 , . . . A n ∣ θ ) π ( θ ) P ( A 1 , A 2 , . . . , A n ) P(\theta|A_1,A_2,...,A_n)=\frac{P(A_1,A_2,...A_n|\theta)\pi(\theta)}{P(A_1,A_2,...,A_n)} P(θA1,A2,...,An)=P(A1,A2,...,An)P(A1,A2,...Anθ)π(θ) 根据观察到的结果修正 θ \theta θ,也就是假设 θ \theta θ是随机变量, θ \theta θ服从 β \beta β分布,有很多个可能的取值,我们要取的值时在已知观察结果的条件下使 θ \theta θ出现概率最大的值。上式分母是不变的,求分子最大就可以。 KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ \theta &=ar… 其中 a , b a,b a,b β \beta β分布中的参数 β ( θ ; a , b ) = θ a − 1 ( 1 − θ ) b − 1 一 个 常 数 \beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一个常数} β(θ;a,b)=θa1(1θ)b1,选定 a , b a,b a,b后就可以确定 θ \theta θ。如 选 择 a = b = 2 , 则 θ = k + 1 n + 2 选择a=b=2,则\theta=\frac{k+1}{n+2} a=b=2θ=n+2k+1 ( a , b 怎 么 选 最 合 理 , 我 不 知 道 。 ) (a,b怎么选最合理,我不知道。) a,b 如果错误,欢迎指正。 参考:

    http://blog.csdn.net/a358463121/article/details/52562940 http://blog.csdn.net/guohecang/article/details/52313046 http://www.math.zju.edu.cn/webpagenew/UploadFiles/AttachFiles/2010421221717128.pdf https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/ http://www.guokr.com/question/547339/ http://blog.csdn.net/guohecang/article/details/52313046


    下图是 β \beta β分布: β ( θ ; a , b ) = θ a − 1 ( 1 − θ ) b − 1 一 个 常 数 \beta(\theta;a,b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{一个常数} β(θ;a,b)=θa1(1θ)b1

    ####1.2 模型是条件概率分布: P θ ( Y ∣ X ) P_\theta(Y|X) Pθ(YX), 损失函数是对数损失函数: L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(YX))=logP(YX), 经验风险为: KaTeX parse error: No such environment: align* at position 7: \begin{̲a̲l̲i̲g̲n̲*̲}̲ R_{emp}(f)&=\f…

    最小化经验风险,也就是最大化 ∑ i = 1 N l o g P ( y i ∣ x i ) \sum_{i=1}^{N}logP(y_i|x_i) i=1NlogP(yixi),也就是最大化 ∏ i = 1 N P ( y i ∣ x i ) \prod_{i=1}^{N}P(y_i|x_i) i=1NP(yixi),这个就是极大似然估计。

    转载请注明原文地址: https://ju.6miu.com/read-669323.html

    最新回复(0)