9、集成学习 ensemble learning
通过构建并结合多个学习器来完成学习任务,有时也称为多分类器系统multi-classifier system、基于委员会的学习committee-based learning
同质homogeneous集成:集成中只包含同种类型的个体学习器,其中的个体学习器亦称基学习器,相应的学习算法称为基学习算法
异质heterogeneous集成:包含不同类型的个体学习器,其中的个体学习器亦称组件学习器,也不再有基学习算法(因为这些个体学习器是由不同的学习算法生成)
集成学习将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能
集成学习的个体学习器应该“好而不同”,即要有一定的准确性(至少不差于弱学习器),也要有多样性(学习器间有差异)
9.1 集成学习方法
两大类:①个体学习器间存在强依赖关系、必须串行生成的序列化方法(代表:Boosting)
②个体学习器间不存在强依赖关系、可同时生成的并行化方法(代表:Bagging、随机森林Random Forest)
→boosting降偏差,bagging、random forest降方差
9.1.1 Boosting
一族可将弱学习器提升为强学习器的算法
工作机制:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直至基学习器数目达到事先指定的值T,最终将这T个基学习器进行加权结合。
代表算法:AdaBoost
9.1.2 Bagging
基于自主采样法bootstrap sampling给定T个包含m个样本的数据集,基于每个采样集训练出一个基学习器,再将这些基学习器进行结合(分类任务:简单投票法,回归任务:简单平均法)。
9.1.3随机森林Random Forest,RF
Bagging的一个扩展变体,在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树训练过程中引入了随机属性选择
随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升
9.2(学习器)结合策略
假定集成包含T个基学习器{h1,h2,…,hT},其中hi在示例x上的输出为hi(x)
9.2.1平均法
对数值型输出:hi(x)∈R
①简单平均法simple averaging:
②加权平均法weighted averaging:
权重一般从训练数据中习得(如估计出个体学习器的误差,然后令权重大小与误差大小成反比)
——在个体学习器性能相差较大时宜使用加权平均法,而在个体学习器性能相近时宜使用简单平均法
9.2.2投票法
不同类型的个体学习器输出值(不能混用):
①类标记:属于{0,1},硬投票 ②类概率:属于[0,1],软投票
9.2.3学习法
初级学习器:个体学习器
次级学习器(元学习器):用于结合的学习器
Stacking算法
先从初始数据集训练出初级学习器,然后“生成”一个新数据集用于训练次级学习器,在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记。假定初级学习器使用不同学习算法产生(即初级集成是异质的)
9.3多样性
9.3.1误差-分歧分解
→个体学习器准确性越高、多样性越大,则集成越好
9.3.2多样性度量diversity measure
9.3.3多样性增强
在学习过程中引入随机性,如数据样本扰动(基于采样法)、输入属性扰动(随机子空间算法)、输出表示扰动、算法参数扰动,可实现多样性增强。
_ _ _ _ _ _ 未完待续,喜欢的朋友可以关注后续文章 _ _ _ _ _ _
机器学习基础系列文章回顾:
机器学习基础(一):简介
机器学习基础(二):模型评估与选择
机器学习基础(三):决策树
机器学习基础(四):特征选择与稀疏学习
机器学习基础(五):计算学习理论(PAC学习、有限假设空间、VC维、Rademacher复杂度、稳定性)
机器学习基础(六):贝叶斯分类(贝叶斯决策论、朴素/半朴素贝叶斯分类器、贝叶斯网、EM算法)
机器学习基础(七):概率图模型(HMM、MRF、CRF、话题模型、推断方法)
机器学习基础(八):降维与度量学习(KNN、MDS、线性降维、PCA、核化线性降维、流形学习、度量学习)
参考书目:
周志华.《机器学习》