贝叶斯学习-- matlab、python代码分析(1)

    xiaoxiao2021-10-29  66

    目录 1. 评估假设 2. 贝叶斯法则 3. 贝叶斯分类器 4. 实例分析

    1 评估假设 对假设的精度进行经验评估是机器学习中的基本问题。

    1.1 估计假设精度

    当数据十分充足时,假设精度的估计相对容易,但如果给定的数据集非常有限是,那么在学习学习一个概念并估计其将来的精度,会存在两个困难: (a) 估计的偏差 (b) 估计的方差

    本文使用框架: 在假设空间上H上, 学习一个目标概念(目标函数)f。目标函数f的训练样例有施教者提供给学习器:每一个实例按照概率分布P来独立的抽取,然后它连同正确的目标值f(x) 一同提供给学习器。 在此框架上,我们感兴趣的问题: (a) 给定假设h和包含若干按P分布随机抽取的样例数据集,如何针对按同样分布抽取的实例,得到对h的精度的最好估计。 (b)这一精度估计的可能的误差是多少? 为了解决上面的问题,需要确切的区分出两种精度(错误率): 样本错误率: 对于从所有可能实例的空间X中抽取的样本S,某假设关于S的样本错误率为:该假设错误分类的实例在S中所占的比例。 errorsh 真实错误率: 对于按P分布随机抽取的实例,该假设对它错误分类的概率。 errorPh 我们通常想知道真实错误率,因为这是在分类未来样例时可以预料到的错误。然而, 我们所能测量的是样本错误率。所以,我们要弄明白: errorsh 在何种程度上提供了对 errorPh 的估计?

    1.2 采样理论基础 这里介绍几个统计雪中常用的几个定义概念 (a) 随机变量 : 随即实验的输出 (b) 某随机变量的概率分布:指定了取值为任何以可能只 yi 的可能性 Pr(Y=yi) (c) 随机变量Y的期望值(均值) E[Y] (d) 随机变量的方差: Var(Y)=E[(YE[y])2] (e) Y的标准差 (f) 二项分布:给出了当单个硬币投掷出正面概率为p时,在n个独立硬币投掷样本中观察到r次正面的概率 : 若随机变量X遵循二项分布: 期望: E[x]=np 方差: Var(X)=np(1p) 对于足够大的n值,二项分布很接近于哟同样均值和方差的正态分布。建议在 np(1p)>=5 时来近似。 (h)正态分布 (i) 中心极限定理:说明独立同分布的随机变量的总和遵循正态分布 (j) 估计量: 一个随机变量Y,被用来估计一个基准总体的某一参数p (k)Y的估计偏差: 作为p的估计量: E[Y]p 无偏估计量: 估计偏差为0 (l) N%置信区间: 用作估计参数p,该区间包含p的概率为N%

    ========================================== i 二项分布的具体形式依赖于样本大小 n 以及概率 p

    1) 有一基本实验(如投掷硬币),其输出可以被描述为随机变量Y。随机变量Y有两种取值(1、0) 2) 在实验的任意一次尝试中,Y=1的概率为常数p。各实验独立。一般p预先未知,面临的问题就是如何去估计它。 3)基本实验的n次独立尝试,生成一个独立同分布的随机变量序列: Y1,Y2,...Yn , 令R为n次实验中出现Y=1的次数: R=ni=1Yi 4) 随即变量R取特定值r的概率(观察到r次正面)有二项分布给出: Pr(P=r)=n!r!(nr)!pr(1p)nr

    ii 估计量 用二项分布的术语来定义 errorsh errorPh errorsh=rn errorPh=p 其中,n为样本S中的实例数,r是S中被h误分类的实例数。p为从P中抽取一实例被误分类的概率。 统计学中,将 error_{s}{h} 称为真实错误率error_{P}{h}的一个估计量,通常估计量用来估计某基本总体的某一参数的随机变量。估计偏差作为估计量的期望值同真实参数值之间的差异。

    iii 正态分布 一个正态分布(高斯分布)是一个钟形分布,它定义为下面的密度函数: p(x)=12πσ2e12(xμσ)2

    如果随机变量X遵循正态分布: X落入到(a,b)的概率为: bap(x)dx X期望值: E[X]=μ X方差: Var(X)=σ2

    中心极限定理:考虑独立同分布的随机变量 Y1,Y2,,,,,Yn 他们服从一任意概率分布,均值为 μ 有限方差为 σ2 , 定义样本均值 Yn¯=ni=1Yi .则当 ninf : Yn¯μσn 服从均值为0 方差为1的正态分布。

    中心极限定理说明了在n趋近于无穷时, Yn¯ 所服从的分布为正态分布,而不用去管 Yi 本身服从什么样的分布。

    转载请注明原文地址: https://ju.6miu.com/read-677848.html

    最新回复(0)