xgboost
xgboost
目录
- `xgboost`
-
- 1.使用`xgboost`库
- 2.梯度提升算法
- 3.`XGB`算法原理
- 4.参数
- 5.示例
-
全称是xgboost
,可译为极限梯度提升算法。它由陈天奇所设计,致力于让提升树突破自身的计算极限,以实现运算快速,性能优秀的工程目标。和传统的梯度提升算法相比,eXtreme Gradient Boosting
进行了很多改进,并且已经认为是在分类和回归上都拥有超高性能的先进评估器XGBoost
-
:https://xgboost.readthedocs.io/en/latest/index.htmlxgboost documents
1.使用 xgboost
库
xgboost
- 方式一【直接使用
库自己的建模流程】xgboost
- 最核心的是
这个读取类,以及DMatrix
这个用于训练的类。与train()
把所有的参数都写在类中的方式不同,sklearn
库中必须先使用字典设置参数集,在使用xgboost
来将参数集输入,再进行训练【train()
涉及的参数太多,全部写在xgboost
容易出错】。xgb.train()
- 方式二:【使用
库中的XGB
的API】sklearn
- 两种使用方式的区别
- 使用
中设定的建模流程来建模,和使用xgboost
中的类来建模,模型效果比较相似,但是sklearnAPI
库本身的运算速度(尤其是交叉验证)以及调参手段比xgboost
简单sklearn
- 使用
2.梯度提升算法
-
的基础是梯度提升算法XGBoost
- 梯度提升(Gradient boosting):
- 是构建预测模型的最强大的技术之一,是集成算法中提升法(Boosting)的代表算法。集成算法通过在数据上构建多个弱评估器,汇总所有弱评估器的建模结果,以获取比单个模型更好的回归或分类表现
- 集成不同弱评估器的方法很多;例如,一次性建立多个平行独立的弱评估器的装袋法;逐一构建弱评估器,经过多次迭代逐渐积累多个弱评估器的提升法
- 梯度提升法是集成算法中提升法(Boosting)的代表算法
- 是构建预测模型的最强大的技术之一,是集成算法中提升法(Boosting)的代表算法。集成算法通过在数据上构建多个弱评估器,汇总所有弱评估器的建模结果,以获取比单个模型更好的回归或分类表现
- 基于梯度提升的回归和分类来说,建模过程大致如下
- 最开始建立一棵树,然后逐渐迭代,每次迭代过程中都增加一棵树,逐渐形成众多树模型集成的强评估器
3. XGB
算法原理
XGB
-
中构建的弱学习器为XGB
树,意味着CART
中所有的树都是二叉的XGBoost
-
中的预测值是所有弱分类器上的叶子结点权重直接求和得到的XGB
- 这个集成模型
中共有k棵决策树,整个模型在这个样本XGB
上给出的预测结果为:i
-
表示k棵树叶子结点权重的累和或yi(k)
模型返回的预测结果,K表示树的总和,XGB
表示第K棵决策树返回的叶子结点的权重(第K棵树返回的结果)fk(xi)
4.参数
- 有放回随机抽样:
subsample
- 控制随机抽样,在
和xgb
中,参数默认为1且不为0,说明我们无法控制模型是否进行随机有放回抽样,只能控制抽样抽出来的样本量大概是多少,通常在样本量很大的时候来调整和使用sklearn
- 控制随机抽样,在
- 迭代决策树:
eta
- 使用参数
来表示迭代的速率。learning_rate
值越大表示迭代速度越快,算法的极限会很快被达到,有可能无法收敛到真正最佳的损失值,learn_rate
越小就越有可能找到更加精确的最佳值,但是迭代速度会变慢,耗费更多的的运算空间和成本learn_rate
- 使用参数
- 选择弱评估器:
booster
5.示例
-
与随机森林对比xgb
from xgboost import XGBRegressor as XGBR from sklearn.ensemble import RandomForestRegressor as RFR from sklearn.datasets import load_boston from sklearn.metrics import mean_squared_error as MSE from sklearn.model_selection import KFold,cross_val_score,train_test_split data=load_boston() feature=data.data target=data.target x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420) #xgboost reg=XGBR(n_estimators=100).fit(x_train,y_train) reg.score(x_test,y_test) #0.9050988968414799 MSE(y_test,reg.predict(x_test)) #7.466827353555599 cross_val_score(reg,x_train,y_train,cv=5).mean()#0.7995062821902295 #随机森林 rfr=RFR(n_estimators=100).fit(x_train,y_train) rfr.score(x_test,y_test) #0.8732682957243149 MSE(y_test,rfr.predict(x_test)) #12.016450651315784 cross_val_score(rfr,x_train,y_train,cv=5).mean()#0.8011385218554434
-
n_eatimators
from xgboost import XGBRegressor as XGBR from sklearn.datasets import load_boston from sklearn.model_selection import KFold,cross_val_score,train_test_split %matplotlib inline import matplotlib.pyplot as plt data=load_boston() feature=data.data target=data.target x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420) model_count=[] scores=[] for i in range(100,300): xgb=XGBR(n_estimators=i).fit(x_train,y_train) score=xgb.score(x_test,y_test) scores.append(score) model_count.append(i) plt.plot(model_count,scores)
-
subsample
from xgboost import XGBRegressor as XGBR from sklearn.datasets import load_boston from sklearn.model_selection import KFold,cross_val_score,train_test_split import numpy as np %matplotlib inline import matplotlib.pyplot as plt data=load_boston() feature=data.data target=data.target x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420) subs=[] scores=[] for i in np.linspace(0.05,1,20): xgb=XGBR(n_estimators=182,subsample=i).fit(x_train,y_train) score=xgb.score(x_test,y_test) subs.append(i) scores.append(score) plt.plot(subs,scores)
-
learning_rate
from sklearn.model_selection import KFold,cross_val_score,train_test_split import numpy as np %matplotlib inline import matplotlib.pyplot as plt data=load_boston() feature=data.data target=data.target x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420) rates=[] scores=[] for i in np.linspace(0.05,1,20): xgb=XGBR(n_estimators=182,subsample=0.9,learning_rate=i).fit(x_train,y_train) score=xgb.score(x_test,y_test) rates.append(i) scores.append(score) plt.plot(rates,scores)
-
booster
from sklearn.model_selection import KFold,cross_val_score,train_test_split import numpy as np %matplotlib inline import matplotlib.pyplot as plt data=load_boston() feature=data.data target=data.target x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420) for booster in ['gbtree','gblinear','dart']: reg=XGBR(n_estimators=180,learning_rate=0.1,random_state=420,booster=booster).fit(x_train,y_train) print(booster) print(reg.score(x_test,y_test)) # gbtree # 0.9260984369386971 # gblinear # 0.6499751962020093 # dart # 0.9260984459922119