参考:http://www.cnblogs.com/zhangbojiangfeng/p/6428988.html
如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现,参数的调整十分必要。在解决实际问题的时候,有些问题是很难回答的——你需要调整哪些参数?这些参数要调到什么值,才能达到理想的输出? 这篇文章最适合刚刚接触XGBoost的人阅读。在这篇文章中,我们会学到参数调优的技巧,以及XGboost相关的一些有用的知识。以及,我们会用Python在一个数据集上实践一下这个算法。
XGBoost(eXtreme Gradient Boosting)是Gradient Boosting算法的一个优化的版本。因为我在前一篇文章,基于Python的Gradient Boosting算法参数调整完全指南,里面已经涵盖了Gradient Boosting算法的很多细节了。我强烈建议大家在读本篇文章之前,把那篇文章好好读一遍。它会帮助你对Boosting算法有一个宏观的理解,同时也会对GBM的参数调整有更好的体会。
特别鸣谢:我个人十分感谢Mr Sudalai Rajkumar (aka SRK)大神的支持,目前他在AV Rank中位列第二。如果没有他的帮助,就没有这篇文章。在他的帮助下,我们才能给无数的数据科学家指点迷津。给他一个大大的赞!
1、XGBoost的优势 2、理解XGBoost的参数 3、调参示例
XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势:
相信你已经对XGBoost强大的功能有了点概念。注意这是我自己总结出来的几点,你如果有更多的想法,尽管在下面评论指出,我会更新这个列表的!
你的胃口被我吊起来了吗?棒棒哒!如果你想更深入了解相关信息,可以参考下面这些文章: XGBoost Guide - Introduce to Boosted Trees Words from the Auther of XGBoost [Viedo]
XGBoost的作者把所有的参数分成了三类:
通用参数:宏观函数控制。Booster参数:控制每一步的booster(tree/regression)。学习目标参数:控制训练目标的表现。在这里我会类比GBM来讲解,所以作为一种基础知识,强烈推荐先阅读这篇文章。
这些参数用来控制XGBoost的宏观功能。
还有两个参数,XGBoost会自动设置,目前你不用管它。接下来咱们一起看booster参数。
尽管有两种booster可供选择,我这里只介绍tree booster,因为它的表现远远胜过linear booster,所以linear booster很少用到。
这个参数用来控制理想的优化目标和每一步结果的度量方法。
如果你之前用的是Scikit-learn,你可能不太熟悉这些参数。但是有个好消息,Python的XGBoost模块有一个sklearn包,XGBClassifier。这个包中的参数是按sklearn风格命名的。会改变的函数名是:
1、eta -> learning_rate 2、lambda -> reg_lambda 3、alpha -> reg_alpha
你肯定在疑惑为啥咱们没有介绍和GBM中的n_estimators类似的参数。XGBClassifier中确实有一个类似的参数,但是,是在标准XGBoost实现中调用拟合函数时,把它作为num_boosting_rounds参数传入。 XGBoost Guide 的一些部分是我强烈推荐大家阅读的,通过它可以对代码和参数有一个更好的了解:
XGBoost Parameters (official guide) XGBoost Demo Codes (xgboost GitHub repository) Python API Reference (official guide)
我们从Data Hackathon 3.x AV版的hackathon中获得数据集,和GBM 介绍文章中是一样的。更多的细节可以参考competition page 数据集可以从这里下载。我已经对这些数据进行了一些处理:
City变量,因为类别太多,所以删掉了一些类别。DOB变量换算成年龄,并删除了一些数据。增加了 EMI_Loan_Submitted_Missing 变量。如果EMI_Loan_Submitted变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的EMI_Loan_Submitted变量。EmployerName变量,因为类别太多,所以删掉了一些类别。因为Existing_EMI变量只有111个值缺失,所以缺失值补充为中位数0。增加了 Interest_Rate_Missing 变量。如果Interest_Rate变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Interest_Rate变量。删除了Lead_Creation_Date,从直觉上这个特征就对最终结果没什么帮助。Loan_Amount_Applied, Loan_Tenure_Applied 两个变量的缺项用中位数补足。增加了 Loan_Amount_Submitted_Missing 变量。如果Loan_Amount_Submitted变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Loan_Amount_Submitted变量。增加了 Loan_Tenure_Submitted_Missing 变量。如果 Loan_Tenure_Submitted 变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Loan_Tenure_Submitted 变量。删除了LoggedIn, Salary_Account 两个变量增加了 Processing_Fee_Missing 变量。如果 Processing_Fee 变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的 Processing_Fee 变量。Source前两位不变,其它分成不同的类别。进行了离散化和独热编码(一位有效编码)。如果你有原始数据,可以从资源库里面下载data_preparation的Ipython notebook 文件,然后自己过一遍这些步骤。
载入必要库:
import pandas as pd import numpy as np import xgboost as xgb from xgboost.sklearn import XGBClassifier from sklearn.model_selection import GridSearchCV,cross_val_score from sklearn import metrics import matplotlib.pylab as plt
读取文件
train_df = pd.read_csv('train_modified.csv') train_y = train_df.pop('Disbursed').values test_df = pd.read_csv('test_modified.csv') train_df.drop('ID',axis=1,inplace=True) test_df.drop('ID',axis=1,inplace=True) train_X = train_df.values
然后评分函数未下:
def modelMetrics(clf,train_x,train_y,isCv=True,cv_folds=5,early_stopping_rounds=50): if isCv: xgb_param = clf.get_xgb_params() xgtrain = xgb.DMatrix(train_x,label=train_y) cvresult = xgb.cv(xgb_param,xgtrain,num_boost_round=clf.get_params()['n_estimators'],nfold=cv_folds, metrics='auc',early_stopping_rounds=early_stopping_rounds)#是否显示目前几颗树额 clf.set_params(n_estimators=cvresult.shape[0]) clf.fit(train_x,train_y,eval_metric='auc') #预测 train_predictions = clf.predict(train_x) train_predprob = clf.predict_proba(train_x)[:,1]#1的概率 #打印 print("\nModel Report") print("Accuracy : %.4g" % metrics.accuracy_score(train_y, train_predictions)) print("AUC Score (Train): %f" % metrics.roc_auc_score(train_y, train_predprob)) feat_imp = pd.Series(clf.booster().get_fscore()).sort_values(ascending=False) feat_imp.plot(kind='bar',title='Feature importance') plt.ylabel('Feature Importance Score')
我们测试下:
Model Report Accuracy : 0.9854 AUC Score (Train): 0.851058
我们看下其中具体的cv结果
cvresult.shape[0]是其中我们用的树的个数
cvresult的结果是一个DataFrame
我们会使用和GBM中相似的方法。需要进行如下步骤:
选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。
对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在确定一棵树的过程中,我们可以选择不同的参数,待会儿我会举例说明。
xgboost的正则化参数的调优。(lambda, alpha)。这些参数可以降低模型的复杂度,从而提高模型的表现。
降低学习速率,确定理想参数。
为了确定boosting参数,我们要先给其它参数一个初始值。咱们先按如下方法取值:
1、max_depth = 5 :这个参数的取值最好在3-10之间。我选的起始值为5,但是你也可以选择其它的值。起始值在4-6之间都是不错的选择。
2、min_child_weight = 1:在这里选了一个比较小的值,因为这是一个极不平衡的分类问题。因此,某些叶子节点下的值会比较小。
3、gamma = 0: 起始值也可以选其它比较小的值,在0.1到0.2之间就可以。这个参数后继也是要调整的。
4、subsample, colsample_bytree = 0.8: 这个是最常见的初始值了。典型值的范围在0.5-0.9之间。
5、scale_pos_weight = 1: 这个值是因为类别十分不平衡。
这里把学习速率就设成默认的0.1。然后用xgboost中的cv函数来确定最佳的决策树数量。前文中的函数可以完成这个工作。
def tun_parameters(train_x,train_y): xgb1 = XGBClassifier(learning_rate=0.1,n_estimators=1000,max_depth=5,min_child_weight=1,gamma=0,subsample=0.8, colsample_bytree=0.8,objective= 'binary:logistic',nthread=4,scale_pos_weight=1,seed=27) modelMetrics(xgb1,train_x,train_y)
然后我们得到如下的结果:
是根据交叉验证中迭代中 n_estimators: 112 Model Report Accuracy : 0.9854 AUC Score (Train): 0.891681
每一次迭代中使用交叉验证,并返回理想的决策树数量。这个值取决于系统的性能。
我们看见min_child_weight已经在边界处了所以我们还可以继续调整,也可以在下个参数一起调节
我们得到max_depth的理想取值为4,min_child_weight的理想取值为6。同时,我们还能看到cv的得分有了小小一点提高。需要注意的一点是,随着模型表现的提升,进一步提升的难度是指数级上升的,尤其是你的表现已经接近完美的时候。 我们能够进一步看是否6比较好, param_test2b = { 'min_child_weight': [6, 8, 10, 12] } gsearch2b = GridSearchCV(estimator=XGBClassifier(learning_rate=0.1, n_estimators=140, max_depth=4, min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4, scale_pos_weight=1, seed=27), param_grid=param_test2b, scoring='roc_auc', n_jobs=4, iid=False, cv=5) gsearch2b.fit(train_x, train_y) gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_ modelMetrics(gsearch2b, train_x, train_y)
6确实是最佳的值了,不用再调节了。 然后我们拟合一下看下模型评分: n_estimators: 140 Model Report Accuracy : 0.9854 AUC Score (Train): 0.875086
在已经调整好其它参数的基础上,我们可以进行gamma参数的调优了。Gamma参数取值范围可以很大,我这里把取值范围设置为5了。你其实也可以取更精确的gamma值。
param_test3 = { 'gamma': [i / 10.0 for i in range(0, 5)] } gsearch3 = GridSearchCV( estimator=XGBClassifier(learning_rate=0.1, n_estimators=140, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4, scale_pos_weight=1, seed=27), param_grid=param_test3, scoring='roc_auc', n_jobs=4, iid=False, cv=5) gsearch3.fit(train_x,train_y) gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_
从这里,可以看出,得分提高了。所以,最终得到的参数是:
xgb2 = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27) modelfit(xgb2, train, predictors)
我们得到的理想取值还是原来的值。因此,最终的理想取值是:
subsample: 0.8colsample_bytree: 0.8下一步是应用正则化来降低过拟合。由于gamma函数提供了一种更加有效地降低过拟合的方法,大部分人很少会用到这个参数。但是我们在这里也可以尝试用一下这个参数。
param_test6 = { 'reg_alpha':[1e-5, 1e-2, 0.1, 1, 100] } gsearch6 = GridSearchCV(estimator = XGBClassifier( learning_rate =0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=4, scale_pos_weight=1,seed=27), param_grid = param_test6, scoring='roc_auc',n_jobs=4,iid=False, cv=5) gsearch6.fit(train_X, train_y) gsearch6.grid_scores_, gsearch6.best_params_, gsearch6.best_score_
([mean: 0.83949, std: 0.00720, params: {'reg_alpha': 1e-05}, mean: 0.83940, std: 0.00607, params: {'reg_alpha': 0.01}, mean: 0.84005, std: 0.00638, params: {'reg_alpha': 0.1}, mean: 0.84062, std: 0.00775, params: {'reg_alpha': 1}, mean: 0.81217, std: 0.01559, params: {'reg_alpha': 100}], {'reg_alpha': 1}, 0.84062434371797357)
相比之前的结果,CV的得分甚至还降低了。但是我们之前使用的取值是十分粗糙的,我们在这里选取一个比较靠近理想值(0.01)的取值,来看看是否有更好的表现。 param_test7 = { 'reg_alpha': [0, 0.001, 0.005, 0.01, 0.05] } gsearch7 = GridSearchCV( estimator=XGBClassifier(learning_rate=0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1, subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4, scale_pos_weight=1, seed=27), param_grid=param_test7, scoring='roc_auc', n_jobs=4, iid=False, cv=5) gsearch7.fit(train_x, train_y) gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_ 调整精度以后
CV的得分提高了。现在,我们在模型中来使用正则化参数,来看看这个参数的影响。
xgb3 = XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005, objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27) 现在我们可以来看下reg_lambda参数调节: ([mean: 0.83996, std: 0.00597, params: {'reg_lambda': 1e-05}, mean: 0.84030, std: 0.00580, params: {'reg_lambda': 0.01}, mean: 0.83965, std: 0.00574, params: {'reg_lambda': 0.1}, mean: 0.84035, std: 0.00622, params: {'reg_lambda': 1}, mean: 0.83601, std: 0.00944, params: {'reg_lambda': 100}], {'reg_lambda': 1}, 0.84035395025572046) param_test8 = { 'reg_lambda': [1e-5, 1e-2, 0.1, 1, 100] } gsearch8 = GridSearchCV( estimator=XGBClassifier(learning_rate =0.1, n_estimators=177,max_depth=4,min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005, objective= 'binary:logistic',nthread=4, scale_pos_weight=1,seed=27), param_grid=param_test8, scoring='roc_auc', n_jobs=4, iid=False, cv=5) gsearch8.fit(train_X, train_y) gsearch8.grid_scores_, gsearch8.best_params_, gsearch8.best_score_最后,我们使用较低的学习速率,以及使用更多的决策树。我们可以用XGBoost中的CV函数来进行这一步工作。
xgb4 = XGBClassifier( learning_rate =0.01, n_estimators=5000, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005, objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27) 我们看下最后的模型评分至此,你可以看到模型的表现有了大幅提升,调整每个参数带来的影响也更加清楚了。 在文章的末尾,我想分享两个重要的思想: 1、仅仅靠参数的调整和模型的小幅优化,想要让模型的表现有个大幅度提升是不可能的。GBM的最高得分是0.8487,XGBoost的最高得分是0.8494。确实是有一定的提升,但是没有达到质的飞跃。 2、要想让模型的表现有一个质的飞跃,需要依靠其他的手段,诸如,特征工程(feature egineering) ,模型组合(ensemble of model),以及堆叠(stacking)等。