天天看点

提升方法:GBDT、XGBOOST、AdaBoost

提升 (boosting) 方法是一种常用的统计学习方法,应用广泛且有效,在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类器性能。
  • Table of Contents

    • GBDT
      • 提升的概念
      • 提升算法
      • 梯度提升决策树 GBDT
    • XGBOOST
    • AdaBoost
      • 误差分析
    • 参考文献

GBDT

我们知道随机森林的决策树分别采样建立, 相对独立。 那么引来了如下思考 :

  • 假定当前一定得到了 
    提升方法:GBDT、XGBOOST、AdaBoost
     颗决策树, 是否可以通过现有样本和决策树的信息, 对第 
    提升方法:GBDT、XGBOOST、AdaBoost
     颗决策树的建立产生有益的影响呢 ?
  • 各个决策树组成随机森林后, 最后的投票过程可否在建立决策树时即确定呢?

答案是肯定的,这也就是提升(boosting)的方法所解决的问题。

提升的概念

提升是一个机器学习技术, 可以用于回归和分类问题, 它每一步产生一个弱预测模型(如决策树), 并加权累加到总模型中,最终得带一个强预测模型; 如果每一步的弱预测模型生成都是依据损失函数的梯度方向, 则称之为梯度提升(Gradient boosting)。

提升的方法基于这样一个思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。实际上,就是“三个臭皮匠顶个诸葛亮”的道理。

梯度提升算法首先给定一个目标损失函数, 它的定义域是所有可行的弱函数集合(基函数); 提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻影响。

梯度提升算法实际上和梯度下降算法是一样的,只不过看问题的角度不同,比如在线性回归中,我们通过梯度下降来优化参数 

提升方法:GBDT、XGBOOST、AdaBoost

 ,使损失函数能达到(局部)最小值;如果我们换个角度,我们优化的不是 

提升方法:GBDT、XGBOOST、AdaBoost

,而是 

提升方法:GBDT、XGBOOST、AdaBoost

 这个函数,再通过沿梯度方向下降的方法达到损失函数(局部)最小值,就变成了梯度提升算法。

提升算法

给定输入向量 

提升方法:GBDT、XGBOOST、AdaBoost

 和输出变量 

提升方法:GBDT、XGBOOST、AdaBoost

 组成的若干训练样本 

提升方法:GBDT、XGBOOST、AdaBoost

 , 目标是找到近似函数 

提升方法:GBDT、XGBOOST、AdaBoost

 , 使得损失函数 

提升方法:GBDT、XGBOOST、AdaBoost

 的损失值最小。

损失函数 

提升方法:GBDT、XGBOOST、AdaBoost

 的定义不唯一,典型定义有以下两种:

  • 提升方法:GBDT、XGBOOST、AdaBoost
    ,这个定义其实默认误差服从高斯分布
  • 提升方法:GBDT、XGBOOST、AdaBoost
    ,这个定义则认为误差服从Laplace(双指数)分布

假设最优解为 

提升方法:GBDT、XGBOOST、AdaBoost

,则:

提升方法:GBDT、XGBOOST、AdaBoost

该式的意思就是使损失函数期望风险最小化的参数 

提升方法:GBDT、XGBOOST、AdaBoost

 为最优解 

提升方法:GBDT、XGBOOST、AdaBoost

我们知道任何函数都可以被分解为一族基函数的线性组合,比如傅立叶分解可以把任何函数分解为三角函数的线性组合,所以这里的 

提升方法:GBDT、XGBOOST、AdaBoost

 也不例外,我们假设它是一族基函数 

提升方法:GBDT、XGBOOST、AdaBoost

 的线性组合,即: 

提升方法:GBDT、XGBOOST、AdaBoost

算法推导

我们使用梯度提升方法寻找最优解 

提升方法:GBDT、XGBOOST、AdaBoost

, 使得损失函数在训练集上的期望最小。方法如下:

  • 首先, 令 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,求常系数 
    提升方法:GBDT、XGBOOST、AdaBoost
     : 
    提升方法:GBDT、XGBOOST、AdaBoost
    • 若损失函数采用平方定义,上式可以解得:
      提升方法:GBDT、XGBOOST、AdaBoost
    • 若损失函数采用绝对值定义,则解 
      提升方法:GBDT、XGBOOST、AdaBoost
       为 
      提升方法:GBDT、XGBOOST、AdaBoost
       的中位数
  • 知道 
    提升方法:GBDT、XGBOOST、AdaBoost
     之后,接下来用递推的思路来想,如果已知 
    提升方法:GBDT、XGBOOST、AdaBoost
     ,如何求 
    提升方法:GBDT、XGBOOST、AdaBoost
     ?于是得到下面的公式: 
    提升方法:GBDT、XGBOOST、AdaBoost
  • 我们可以用梯度下降的方法近似计算上式。若使 
    提升方法:GBDT、XGBOOST、AdaBoost
     取得最小值,我们可以对 
    提升方法:GBDT、XGBOOST、AdaBoost
     求偏导求出梯度,然后沿负梯度方向下降一个步长 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,由于这个步长可以通过线性搜索求出最优值,所以该步长与负梯度的乘积可以近似为上式的最小值,于是得到如下的更新公式: 
    提升方法:GBDT、XGBOOST、AdaBoost

提升算法

  1. 初始给定模型为常数 
    提升方法:GBDT、XGBOOST、AdaBoost
  2. 对于 
    提升方法:GBDT、XGBOOST、AdaBoost
     到 
    提升方法:GBDT、XGBOOST、AdaBoost
    1. 计算伪残差 (pseudo residuals) 
      提升方法:GBDT、XGBOOST、AdaBoost
      提升方法:GBDT、XGBOOST、AdaBoost
    2. 使用数据 
      提升方法:GBDT、XGBOOST、AdaBoost
       训练拟合残差的基函数 
      提升方法:GBDT、XGBOOST、AdaBoost
       (比如一棵决策树)
    3. 计算步长 
      提升方法:GBDT、XGBOOST、AdaBoost
      • 一维优化问题
    4. 更新模型:
      提升方法:GBDT、XGBOOST、AdaBoost

梯度提升决策树 GBDT

在提升算法中,如果基函数选择的是决策树,那么算法又叫梯度提升决策树,也就是GBDT。

GBDT

  • 在第 
    提升方法:GBDT、XGBOOST、AdaBoost
     步的梯度提升是根据伪残差数据计算决策树 
    提升方法:GBDT、XGBOOST、AdaBoost
  • 令树 
    提升方法:GBDT、XGBOOST、AdaBoost
     的叶节点数目为 
    提升方法:GBDT、XGBOOST、AdaBoost
    , 即树 
    提升方法:GBDT、XGBOOST、AdaBoost
     将输入空间划分为 
    提升方法:GBDT、XGBOOST、AdaBoost
     个不相交区域
    提升方法:GBDT、XGBOOST、AdaBoost
     ,并且决策树 
    提升方法:GBDT、XGBOOST、AdaBoost
     可以在每个区域中给出某个类型的确定性预测。使用指示记号 
    提升方法:GBDT、XGBOOST、AdaBoost
    , 对于输入 
    提升方法:GBDT、XGBOOST、AdaBoost
    提升方法:GBDT、XGBOOST、AdaBoost
     为: 
    提升方法:GBDT、XGBOOST、AdaBoost
  • 其中,
    提升方法:GBDT、XGBOOST、AdaBoost
     是样本 
    提升方法:GBDT、XGBOOST、AdaBoost
     在区域 
    提升方法:GBDT、XGBOOST、AdaBoost
     的预测值,
    提升方法:GBDT、XGBOOST、AdaBoost
  • 使用线性搜索计算学习率,最小化损失函树
    • 提升方法:GBDT、XGBOOST、AdaBoost
    • 提升方法:GBDT、XGBOOST、AdaBoost
  • 进一步:对树的每个区域分别计算步长,从而系数 
    提升方法:GBDT、XGBOOST、AdaBoost
     被合并到步长中,从而: 
    • 提升方法:GBDT、XGBOOST、AdaBoost
    • 提升方法:GBDT、XGBOOST、AdaBoost

参数设置和正则化

对训练集拟合过高会降低模型的泛化能力, 需要使用正则化技术来降低过拟合。

  • 对复杂模型增加惩罚项, 如 : 模型复杂度正比于叶结点数目或者叶结点预测值的平方和等
  • 用决策树剪枝
  • 叶结点数目控制了树的层数, 一般选择 
    提升方法:GBDT、XGBOOST、AdaBoost
  • 叶结点包含的最少样本数目 
    • 防止出现过小的叶结点, 降低预测方差
  • 梯度提升迭代次数 
    提升方法:GBDT、XGBOOST、AdaBoost
     : 
    • 增加 
      提升方法:GBDT、XGBOOST、AdaBoost
       可降低训练集的损失值, 但有过拟合风险
    • 交叉验证

GBDT总结

  • 函数估计本来被认为是在函数空间而非参数空间的数值优化问题,而阶段性的加性扩展和梯度下降手段将函数估计转换成参数估计。
  • 损失函数是最小平方误差、绝对值误差等,则为回归问题;而误差函数换成多类别Logistic似然函数,则成为分类问题。
  • 对目标函数分解成若干基函数的加权和,是常见的技术手段:神经网络、径向基函数、傅立叶/小波变换、SVM都可以看到它的影子。

XGBOOST

提升方法:GBDT、XGBOOST、AdaBoost

普通提升算法包括GBDT在计算上式实采用的是梯度提升,也就是只用了一阶导数信息,如果常识二阶导数的信息呢?

目标函数:

提升方法:GBDT、XGBOOST、AdaBoost

其中,

提升方法:GBDT、XGBOOST、AdaBoost

 为正则项,

提升方法:GBDT、XGBOOST、AdaBoost

 为常数,目的是要求出使目标函数最小的 

提升方法:GBDT、XGBOOST、AdaBoost

二阶Taylor展式: 
提升方法:GBDT、XGBOOST、AdaBoost

令: 

提升方法:GBDT、XGBOOST、AdaBoost

对 

提升方法:GBDT、XGBOOST、AdaBoost

 二阶Taylor展开并省略高阶无穷小得:

提升方法:GBDT、XGBOOST、AdaBoost
决策树的描述
  • 使用决策树对样本做分类(回归),是从根结点到叶节点的细化过程;落在相同叶节点的样本的预测值是相同的
  • 假定某决策树的叶结点数目为 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,每个叶结点的权值为 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,决策树的学习过程,就是构造如何使用特征得到划分,从而得到这些权值的过程。叶权值就是这个叶节点的预测结果,若是分类问题,也就是这类样本的标签。
  • 样本 
    提升方法:GBDT、XGBOOST、AdaBoost
     落在叶结点 
    提升方法:GBDT、XGBOOST、AdaBoost
     中,定义描述决策树函数为: 
    提升方法:GBDT、XGBOOST、AdaBoost
    • 一个决策树的核心即“树结构”和“叶权值”

决策树的复杂度可考虑叶结点数和叶权值,如使用叶结点总数和叶权值平方和的加权: 

提升方法:GBDT、XGBOOST、AdaBoost

其中,

提升方法:GBDT、XGBOOST、AdaBoost

 为叶子的个数。

我们继续来推导目标函数 

提升方法:GBDT、XGBOOST、AdaBoost

提升方法:GBDT、XGBOOST、AdaBoost

令 

提升方法:GBDT、XGBOOST、AdaBoost

提升方法:GBDT、XGBOOST、AdaBoost

,从而: 

提升方法:GBDT、XGBOOST、AdaBoost

对 

提升方法:GBDT、XGBOOST、AdaBoost

 求偏导得: 

提升方法:GBDT、XGBOOST、AdaBoost

令 

提升方法:GBDT、XGBOOST、AdaBoost

,得: 

提升方法:GBDT、XGBOOST、AdaBoost

回代入目标函数得: 

提升方法:GBDT、XGBOOST、AdaBoost

这就是目标函数最后的结果,值越小代表决策树的结构越好。

我们要构建一颗决策树 

提升方法:GBDT、XGBOOST、AdaBoost

,使目标函数 

提升方法:GBDT、XGBOOST、AdaBoost

 达到最小,构建时可借鉴ID3/C4.5/CART的做法:

  • 如何进行子树划分? 
    • 对于某可行划分, 计算划分后的 
      提升方法:GBDT、XGBOOST、AdaBoost
    • 对于所有可行划分, 选择 
      提升方法:GBDT、XGBOOST、AdaBoost
       降低最小的分割点
  • 枚举可行的分割点, 选择增益最大的划分, 继续同样的操作, 直到满足某阈值或得到纯节点 
    • 提升方法:GBDT、XGBOOST、AdaBoost
提升方法:GBDT、XGBOOST、AdaBoost

XGBOOST总结

  • XGBOOST 与 GBDT 的区别在于更新模型的方法不同,其余都是一样的
  • 相对于传统的GBDT,XGBoost使用了二阶信息,可以更快的在训练集上收敛
  • 由于“随机森林族”本身具备防止过拟合的优势,因此XGBoost仍然一定程度的具有该特性
  • XGBoost的实现中使用了并行/多核计算, 因此训练速度快; 同时它的原生语言为C/C++, 这是它速度快的实践原因

AdaBoost

思考:如果对GBDT的基函数的学习中,不止考虑函数的参数和权值,而是对样本本身也加权,会得到什么结果呢?这其实就是Adaboost的思想。

AdaBoost算法

  • 设训练数据集 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,初始化训练数据的权值分布 
    提升方法:GBDT、XGBOOST、AdaBoost
    提升方法:GBDT、XGBOOST、AdaBoost
    提升方法:GBDT、XGBOOST、AdaBoost
  • 对于 
    提升方法:GBDT、XGBOOST、AdaBoost
    提升方法:GBDT、XGBOOST、AdaBoost
     为树的棵数:
    • 使用具有权值分布 
      提升方法:GBDT、XGBOOST、AdaBoost
       的训练数据集学习, 得到基本分类器 
      提升方法:GBDT、XGBOOST、AdaBoost
    • 计算 
      提升方法:GBDT、XGBOOST、AdaBoost
       在训练数据集上的分类误差率: 
      提升方法:GBDT、XGBOOST、AdaBoost
    • 计算 
      提升方法:GBDT、XGBOOST、AdaBoost
       的系数 
      提升方法:GBDT、XGBOOST、AdaBoost
    • 更新训练数据集的权值分布 
      提升方法:GBDT、XGBOOST、AdaBoost
      提升方法:GBDT、XGBOOST、AdaBoost
    • 这里,
      提升方法:GBDT、XGBOOST、AdaBoost
       是归一化因子: 
      提升方法:GBDT、XGBOOST、AdaBoost
    • 它使 
      提升方法:GBDT、XGBOOST、AdaBoost
       成为一个概率分布(和为1)。
  • 构建基本分类器的线性组合 
    提升方法:GBDT、XGBOOST、AdaBoost
  • 得到最终分类器: 
    提升方法:GBDT、XGBOOST、AdaBoost

算法解释

我们先分析 

提升方法:GBDT、XGBOOST、AdaBoost

 的系数:

提升方法:GBDT、XGBOOST、AdaBoost

,这里的 

提升方法:GBDT、XGBOOST、AdaBoost

 是分类错误率。 

这个式子实现了这么一个理论:如果一个分类器的分类错误率超过50%,那么这个分类器还不如随机分类(默认均匀分布,随机分50%错误率)来得好,把这个分类器直接反转效果反而会更好。

  • 如果 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,则 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,所以 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,可以得到 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,即:
    提升方法:GBDT、XGBOOST、AdaBoost
    ,说明如果这个分类器的错误率小于0.5则权值为正,表示可以参考这个分类器的结果,并且错误率越低分类器的权值越大;
  • 如果 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,则 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,所以 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,可以得到 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,即:
    提升方法:GBDT、XGBOOST、AdaBoost
    ,就相当于把分类器反转。

再来看权值更新公式,

提升方法:GBDT、XGBOOST、AdaBoost
  • 先看指数上的一小部分 : 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,其中 
    提升方法:GBDT、XGBOOST、AdaBoost
     为该分类器的权值,
    提升方法:GBDT、XGBOOST、AdaBoost
     为第 
    提升方法:GBDT、XGBOOST、AdaBoost
     个样本的实际类别且 
    提升方法:GBDT、XGBOOST、AdaBoost
    提升方法:GBDT、XGBOOST、AdaBoost
     为预测类别。 
    • 若预测类别与实际类别一致,则 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,反之则 
      提升方法:GBDT、XGBOOST、AdaBoost
    • 如果该分类器比较靠谱的话(
      提升方法:GBDT、XGBOOST、AdaBoost
      ),
      提升方法:GBDT、XGBOOST、AdaBoost
       是个正数,反之是个负数。
    • 综合起来看:如果靠谱的分类器预测错了(或者不靠谱的分类器预测对了),则 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,反之则 
      提升方法:GBDT、XGBOOST、AdaBoost
  • 提升方法:GBDT、XGBOOST、AdaBoost
     是用来归一化的,不用看,把其他部分合起来:
    • 如果 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,则 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,进而得到 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,即权值增加。
    • 如果 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,则 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,进而得到 
      提升方法:GBDT、XGBOOST、AdaBoost
      ,即权值降低。
  • 结论:如果分类器预测错了则增加该样本的权值,在下次分类时重点关注该样本;如果分类正确则降低该样本的权值,在下次分类时弱化该样本。也就是样本的权值动态变化,如下图所示:
提升方法:GBDT、XGBOOST、AdaBoost

误差分析

AdaBoost算法最终的误差界为:

提升方法:GBDT、XGBOOST、AdaBoost

证明

  • 前半部分:当 
    提升方法:GBDT、XGBOOST、AdaBoost
     时,
    提升方法:GBDT、XGBOOST、AdaBoost
    ,因而 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,而 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,所以 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,前半部分得证。 
  • 后半部分:
    • 由 
      提升方法:GBDT、XGBOOST、AdaBoost
       的定义式得:
      提升方法:GBDT、XGBOOST、AdaBoost
      提升方法:GBDT、XGBOOST、AdaBoost
    • 后半部分得证

这一结果说明,可以在每一轮选取适当的 

提升方法:GBDT、XGBOOST、AdaBoost

 使得 

提升方法:GBDT、XGBOOST、AdaBoost

 最小,从而使训练误差下降最快。

训练误差界

提升方法:GBDT、XGBOOST、AdaBoost

因为 

提升方法:GBDT、XGBOOST、AdaBoost

提升方法:GBDT、XGBOOST、AdaBoost

提升方法:GBDT、XGBOOST、AdaBoost

所以 

提升方法:GBDT、XGBOOST、AdaBoost

其中,

提升方法:GBDT、XGBOOST、AdaBoost

由此得到: 

提升方法:GBDT、XGBOOST、AdaBoost

取 

提升方法:GBDT、XGBOOST、AdaBoost

 的最小值,记为 

提升方法:GBDT、XGBOOST、AdaBoost

, 

则有: 

提升方法:GBDT、XGBOOST、AdaBoost

这表明AdaBoost训练误差是以指数速率下降的!

AdaBoost总结

  • AdaBoost算法可以看做是采用指数损失函数的提升方法,其每个基函数的学习算法为前向分步算法
  • AdaBoost的训练误差是以指数速率下降的
  • AdaBoost算法不需要事先知道下界 
    提升方法:GBDT、XGBOOST、AdaBoost
    ,具有自适应性(Adaptive),它能自适应弱分类器的训练误差率

参考文献

  • 李航,统计学习方法,清华大学出版社,2012
  • Jerome H. Friedman. Greedy Function Approximation: A Gradient Boosting Machine. February 1999

转载自:https://www.liuhe.website/index.php?/Articles/single/50

继续阅读