天天看点

xgboost ppt(1)——监督学习的主要概念

本系列主要是对陈天奇的ppt《introduction to boosted tree》的理解。

xgboost ppt(1)——监督学习的主要概念

概括:

(1)监督学习的主要概念

(2)回归树和组合

(3)GB

(4)总结

xgboost ppt(1)——监督学习的主要概念

监督学习的一些组成元素:

符号:xi表示的是第i个训练样本

模型:给定的输入xi进行预测,得到yi^

(1)线性模型:包括线性回归和逻辑回归

(2)预测值在不同的任务上有不同的解释:

(a)线性回归:yi^就是预测值

(b)逻辑回归:sigmoid函数可以预测正实例的概率

(c)其他

参数:对于线性模型,w是我们要从数据中学习的参数

xgboost ppt(1)——监督学习的主要概念

1.目标函数是由两部分组成的,一个是训练误差,一个是正则项。

2.在训练数据上的损失:

(1)MSE

(2)logistic 损失

3.正则化:模型复杂度

(1)L2范式

(2)L1范式

xgboost ppt(1)——监督学习的主要概念

上下文知识点整合:

(1)ridge回归:线性模型,MSE,L2正则

(2)lasso回归:线性模型,MSE,L1正则

(3)逻辑回归:线性模型,逻辑损失,L2正则

将模型、参数、目标函数做到概念上的分离,具有工程效益

对于ridge回归和logit回归实现梯度下降,由于损失函数不同,所以求导后的结果也不同。具体见我的整理《正则项浅析》

xgboost ppt(1)——监督学习的主要概念

为啥在目标函数中要包含两个部分

1、降低bias,优化训练误差,逐步确定预测模型

拟合训练数据,接近训练数据也就是接近潜在的分布

2、降低variance,优化正则项,简化模型

简化模型意味着在将来的预测中有较小的方差,能够使预测稳定,增强其泛化性能

继续阅读