集成学习

xiaoxiao2021-03-25 93

参考文献：http://blog.csdn.net/chenhongc/article/details/9404583

集成学习通过构建并结合多个学习器来完成学习任务。先产生个体学习器，再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生，例如决策树、BP神经网络。

弱学习：准确率仅比随机猜测略高的学习算法称为弱学习算法。

强学习：准确率很高并能在多项式时间内完成的学习算法称为强学习算法。

集成学习方法大致可分为两大类：

1、个体学习器件存在强依赖关系、必须串行生成的序列化方法，如boosting算法；

2、个体学习器间不存在强依赖关系、可同时生成的并行化方法，如bagging和随机森林（random forest，RF）。

一、决策树：

1、决策树分类

回归树：RMSE（root mean square error，均方根误差）

分类树：信息熵、信息增益、基尼系数

2、ID3算法

参考：www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html

3、C4.5

参考：www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html

4、CART

参考：http://blog.csdn.net/acdreamers/article/details/44664481 （包括Gini指数）

注意:Gini指数越低，越有利于划分

5、剪枝

二、随机森林

随机森林是一种多功能的机器学习算法，能够执行回归和分类、降维的任务。

优点：

综述：

三、bootstrap

四、Bagging

用bootstrap抽样方法训练基分类器，然后集成在一起

五、boosting（下面讲adaboost）

参考文献：http://blog.csdn.net/dark_scope/article/details/14103983

《机器学习》（周志华） 8.2小节： boosting

adaboost算法本身是通过改变数据分布实现的，它根据每次训练集之中的每个样本分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改权值的新数据传送给下层分类器进行训练，然后将每次训练得到的分类器融合起来，作为最后的决策分类器。

六、Bagging、RF和boosting（adaboost）的区别

转载请注明原文地址: https://ju.6miu.com/read-37190.html

技术

最新回复(0)