机器学习决策树及python实现

本篇博客主要讲解决策树是如何分类的。

概念

决策树也称判定树，基于树结构进行决策，决策树是一个预测模型，代表的是对象属性与对象值之间的一种映射关系。

一般的，一棵决策树包含一个根节点、若干个内部节点和若干个叶节点。叶节点对应于决策结果，其他每个节点对应于一个属性测试；每个节点包含的样本根据属性测试的结果被划分到子节点中；根节点包含样本全集。

决策树学习目的：为了产生一个泛化能力强，即处理未见示例能力强的决策树。

一样通过一个简单的例子先来了解一下什么是决策树

女儿：多大年纪了？

母亲：26。

女儿：长的帅不帅？

母亲：挺帅的。

女儿：收入高不？

母亲：不算很高，中等情况。

女儿：是公务员不？

母亲：是，在税务局上班呢。

女儿：那好，我去见见。

那我们可以用一个决策树去表达母亲和女儿的对话：

机器学习决策树及python实现

那下面我们就可以先引入决策树的算法流程了：

算法流程

输入: 训练集D={(x1,y1),(x2,y2),……,(xm,ym)} ;

属性集A= {a1,a2,……ad}.

过程: 函数TreeGenerate(D,A)

l: 生成结点node;

2: if D 中样本全属于同一类别 C then

3: 将node 标记为C类叶结点; return

4: end if

5: if A= Ø OR D 中样本在A 上取值相同then

6: 将node 标记为叶结点，其类别标记为D中样本数最多的类; return

7:end if

8: 从A 中选择最优划分属性;

9: for 的每一个值 do

10: 为node 生成一个分支; 令表示D中在上取值为的样本子集;

11: if 为空then

12: 将分支结点标记为叶结点，其类别标记为D 中样本最多的类; return

13: else

14: 以TreeGenerate( ,A{ })为分支结点

15: end if

16: end for

输出: 以node 为根结点的一棵决策树

分析一下算法中三个返回情况

(1)当前结点包含的样本全部属于同一类别，无需划分。

(2)当前属性集为空，或者是所有样本在所有属性上的取值相同，无法划分。(当前结点标为叶子结点，其类别也是该节点所含样本最多的类别)

(3)当前结点包含的样本集合为空，不能划分。(当前结点标为叶子结点，其类别为父结点所含样本最多的类别)

(2)和(3)是不一样的，(2)是在利用当前结点的后验分布，(3)是把父结点的样本分布作为当前结点的先验分布。

算法的核心思想在于划分选择，下面对划分选择进行介绍

划分准则：随着划分过程的不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”(purity)越来越高。

方法：信息增益（ID3）

优化方法：增益率（C4.5）

机器学习决策树及python实现

继续阅读

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入