集成学习

    xiaoxiao2021-03-25  85

    参考文献:http://blog.csdn.net/chenhongc/article/details/9404583

    集成学习通过构建并结合多个学习器来完成学习任务。先产生个体学习器,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生,例如决策树、BP神经网络。

    弱学习:准确率仅比随机猜测略高的学习算法称为弱学习算法。

    强学习:准确率很高并能在多项式时间内完成的学习算法称为强学习算法。

    集成学习方法大致可分为两大类:

    1、个体学习器件存在强依赖关系、必须串行生成的序列化方法,如boosting算法;

    2、个体学习器间不存在强依赖关系、可同时生成的并行化方法,如bagging和随机森林(random forest,RF)。

    一、决策树:

    1、决策树分类

    回归树:RMSE(root mean square error,均方根误差)

    分类树:信息熵、信息增益、基尼系数

    2、ID3算法

    参考:www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html 

    3、C4.5

    参考:www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html

    4、CART

    参考:http://blog.csdn.net/acdreamers/article/details/44664481   (包括Gini指数)

    注意:Gini指数越低,越有利于划分

    5、剪枝

    二、随机森林

         随机森林是一种多功能的机器学习算法,能够执行回归和分类、降维的任务。

    优点:

    综述:

    三、bootstrap

    四、Bagging

    用bootstrap抽样方法训练基分类器,然后集成在一起

    五、boosting(下面讲adaboost)

    参考文献:http://blog.csdn.net/dark_scope/article/details/14103983

    机器学习》(周志华) 8.2小节: boosting

    adaboost算法本身是通过改变数据分布实现的,它根据每次训练集之中的每个样本分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据传送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。

    六、Bagging、RF和boosting(adaboost)的区别

    转载请注明原文地址: https://ju.6miu.com/read-37190.html

    最新回复(0)