CART算法的树回归:
返回的每个节点最后是一个最终确定的平均值。
结果:
{'spInd': 1, 'spVal': matrix(` 0`.`39435`), 'right': {'spInd': 1, 'spVal': matrix(` 0`.`197834`), 'right': -0.023838155555555553, 'left': 1.0289583666666666}, 'left': {'spInd': 1, 'spVal': matrix(` 0`.`582002`), 'right': 1.980035071428571, 'left': {'spInd': 1, 'spVal': matrix(` 0`.`797583`), 'right': 2.9836209534883724, 'left': 3.9871631999999999}}}
结果的意思是:第几个特征,以多大作为特征值分开,分成左右,依次分下去。
这个算法很好,但是对数据的分类太过于高,容易造成过拟合。因此要采用剪枝技术。
通过降低决策树的复杂度来避免过拟合的过程称为剪枝。
一般来说都是预剪枝和后剪枝合并使用
模型树
每个节点是一个线性模型
其他基本一样:
模型树回归很好,而且可以用作预测