决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝

使用信息增益构造决策树，完成后剪枝

1 构造决策树
- 1 根结点的选择
  - 色泽信息增益
  - 根蒂信息增益
  - 敲声信息增益
  - 纹理信息增益
  - 脐部信息增益
  - 触感信息增益
  - 选择根结点构建决策树
- 2 对分支结点${1,2,3,14}$进行划分
  - 选择分类结点构建决策树
- 3 对分支 ${6,7,15,17}$进行划分
- 4 对分支${6,7,15}$进行划分
- 5 对分支${7,15}$进行划分
2 决策树后剪枝
- 1 考虑结点$7,15$
- 2 考虑结点$6,715$色泽=？
- 3 考虑结点$1,2,3,14$色泽=？
- 4考虑 $6,7，15,17$根蒂=？

根据色泽划分为青绿，乌黑，浅白三个子集

计算信息熵

\[\begin{aligned}

Ent(D^1) &= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\

Ent(D^2) &= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\

Ent(D^3)&= -(\frac{2}{2} log_2 \frac{2}{2}+\frac{0}{2} log_2 \frac{0}{2})=0 \\

Ent(D)&= -(\frac{5}{10} log_2 \frac{5}{10}+\frac{5}{10} log_2 \frac{5}{10})=1 \\

Gani(D,色泽)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 1 - (\frac{4}{10}\times 1+\frac{4}{10} \times 0.811+\frac{2}{10}\times0) \\

&= 0.2756

\end{aligned}

\]

根据根蒂划分为蜷缩稍蜷硬挺三个子集

Ent(D^1) &= -(\frac{2}{5} log_2 \frac{2}{5}+\frac{3}{5} log_2 \frac{3}{5})=0.971 \\

Ent(D^2) &= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\

Ent(D^3)&= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\

Gani(D,根蒂)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 1 - (\frac{5}{10}\times 0.971+\frac{4}{10} \times 1+\frac{1}{10}\times0) \\

&= 0.1145

根据色泽划分为浊响，沉闷，清脆三个子集

Ent(D^1) &= -(\frac{2}{6} log_2 \frac{2}{6}+\frac{4}{6} log_2 \frac{4}{6})=0.918 \\

Ent(D^2) &= -(\frac{2}{3} log_2 \frac{2}{3}+\frac{1}{3} log_2 \frac{1}{3})=0.918 \\

Gani(D,敲声)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 1 - (\frac{6}{10}\times 0.918+\frac{3}{10} \times 0.918+\frac{1}{10}\times0) \\

&=0.2346

根据纹理划分为清晰稍糊模糊三个子集

Gani(D,纹理)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 0.2346

根据色泽划分为凹陷，稍凹，平坦三个子集

Ent(D^1) &= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\

Gani(D,脐部)&=Ent(D)-\sum_{v=1}^3 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 1 - (\frac{4}{10}\times 0.811+\frac{4}{10} \times 1+\frac{2}{10}\times0) \\

根据色泽划分为硬滑，软粘两个子集

Ent(D^1) &= -(\frac{3}{6} log_2 \frac{3}{6}+\frac{3}{6} log_2 \frac{3}{6})=1 \\

Gani(D,触感)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 1 - (\frac{6}{10}\times 1 +\frac{4}{10} \times 1 \\

&= 0

Gain(D,色泽)=0.2756 \ Gain(D,根蒂)=0.1145 \ Gain(D,敲声)=0.2346 \\

Gain(D,纹理)=0.2346 \ Gain(D,脐部)=0.2756 \ Gain(D,触感)=0

比较六个属性的信息增益大小，选择脐部作为根结点

则数据集被划分为

2 对分支结点${1,2,3,14}$进行划分

Ent(D^1) &= -(\frac{0}{1} log_2 \frac{0}{1}+\frac{1}{1} log_2 \frac{1}{1})=0 \\

Ent(D^2) &= -(\frac{0}{2} log_2 \frac{0}{2}+\frac{2}{2} log_2 \frac{2}{2})=0 \\

Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})=0.811 \\

&= 0.811 - (\frac{1}{4}\times 0+\frac{2}{4} \times 0 +\frac{1}{4}\times 0) \\

&= 0.811

根据根蒂划分为蜷缩稍蜷两个子集

Ent(D^1) &= -(\frac{0}{3} log_2 \frac{0}{3}+\frac{3}{3} log_2 \frac{3}{3})=0 \\

Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0 \\

Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})= 0.811\\

Gani(D,根蒂)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 0.811 - (\frac{3}{4}\times 0 +\frac{1}{4} \times 0) \\

根据色泽划分为浊响，沉闷两个子集

Ent(D^1) &= -(\frac{0}{2} log_2 \frac{0}{2}+\frac{2}{2} log_2 \frac{2}{2})=0 \\

Ent(D^2) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Gani(D,敲声)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 0.811 - (\frac{2}{4}\times 0 +\frac{2}{4} \times 1 ) \\

&=0.311

根据纹理划分为清晰稍糊两个子集

Gani(D,纹理)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 0.811 - (\frac{3}{4}\times 0+\frac{1}{4} \times 0 ) \\

根据触感划分为硬滑一个子集

Ent(D)&= -(\frac{1}{4} log_2 \frac{1}{4}+\frac{3}{4} log_2 \frac{3}{4})= 0.811 \\

Gani(D,触感)&=Ent(D)-\sum_{v=1}^1 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 0.811 - (\frac{4}{4}\times 0.811 ) \\

Gain(D,色泽)=0.811 \ Gain(D,根蒂)=0.811 \ Gain(D,敲声)=0.311 \\

Gain(D,纹理)=0.811 \ \ \ Gain(D,触感)=0

不妨选择色泽作为分类依据

形成的决策树

3 对分支 ${6,7,15,17}$进行划分

根据色泽划分为青绿，乌黑两个子集

Ent(D^1) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D^2) &= -(\frac{1}{2} log_2 \frac{0}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})= 1 \\

Gani(D,色泽)&=Ent(D)-\sum_{v=1}^2 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 1 - (\frac{2}{4}\times 1+\frac{2}{4} \times 1 ) \\

Ent(D^1) &= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0。918\\

Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})= 1\\

&= 1 - (\frac{3}{4}\times 0.918 +\frac{1}{4} \times 0) \\

&= 0.3115

Ent(D^1) &= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\

Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})= 0 \\

Ent(D)&= -(\frac{2}{4} log_2 \frac{2}{4}+\frac{2}{4} log_2 \frac{2}{4})=1 \\

&= 1 - (\frac{3}{4}\times 0.918 +\frac{1}{4} \times 0 ) \\

&=0.3115

根据触感划分为硬滑，软粘两个子集

&= 1 - (\frac{3}{4}\times 0.918+\frac{1}{4} \times 0 ) \\

&= 0.2295

Gain(D,色泽)=0 \ Gain(D,根蒂)=0.3115 \ Gain(D,敲声)=0.3115 \\

Gain(D,纹理)=0 \ \ \ Gain(D,触感)=0.2295

不妨选择根蒂作为分类依据

此时决策树为

4 对分支${6,7,15}$进行划分

Ent(D)&= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})= 0.918 \\

&= 0.918 - (\frac{1}{3}\times 0+\frac{2}{3} \times 1 ) \\

&= 0.252

根据色泽划分为浊响一个子集

Ent(D)&= -(\frac{2}{3} log_2 \frac{2}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\

Gani(D,敲声)&=Ent(D)-\sum_{v=1}^1 \frac{|D^v|}{|D|}Ent(D^v) \\

&= 0.918 - (\frac{3}{3}\times 0.918 ) \\

&=0

Ent(D^2) &= -(\frac{0}{1} log_2 \frac{0}{1}+\frac{1}{1} log_2 \frac{1}{1})=0\\

Ent(D)&= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918 \\

&= 0.918 - (\frac{2}{3}\times 1+\frac{1}{3} \times 0 ) \\

根据触感划分为软粘一个子集

Ent(D)&= -(\frac{1}{3} log_2 \frac{1}{3}+\frac{2}{3} log_2 \frac{2}{3})=0.918\\

&= 0.918 - (\frac{3}{3}\times 0.918 ) \\

&= 0

Gain(D,色泽)=0 .252 \ \ Gain(D,敲声)=0 \\

Gain(D,纹理)=0.252 \ \ \ Gain(D,触感)=0

5 对分支${7,15}$进行划分

Ent(D) &= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1\\

&= 1 - (\frac{2}{2}\times 0.918 ) \\

Ent(D^2) &= -(\frac{1}{1} log_2 \frac{1}{1}+\frac{0}{1} log_2 \frac{0}{1})=0\\

Ent(D)&= -(\frac{1}{2} log_2 \frac{1}{2}+\frac{1}{2} log_2 \frac{1}{2})=1 \\

&= 1 - (\frac{1}{2}\times 0+\frac{1}{2} \times 0 ) \\

&= 1

\ \ Gain(D,敲声)=0 \ Gain(D,纹理)=1 \ \ \ Gain(D,触感)=0

选择纹理作为分类依据

1 考虑结点$7,15$

原分支（剪枝前），有三个样本被正确分类验证集精度为 42.8%

剪枝后的决策树

此时验证集有四个样本被正确分类，精度为57.1%

于是后剪枝策略决定剪枝，得到上图的决策树

2 考虑结点$6,715$色泽=？

由上图，决策树精度为57.1%

剪去结点后的决策树为

与未剪枝时的精度相同，西瓜书中采用了不剪枝的策略。在这里我们不妨采用剪枝的策略，于是得到上图的决策树

3 考虑结点$1,2,3,14$色泽=？

在上图基础上来考虑剪去结点$1,2,3,14$色泽=？，剪枝后的决策树为

此时的决策树正确分类的样本5个，精度为71.4%

根据后剪枝策略，进行剪枝，得到上图的决策树

4考虑 $6,7，15,17$根蒂=？

剪枝后的决策树为

决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝

2 对分支结点\({1,2,3,14}\)进行划分

3 对分支 \({6,7,15,17}\)进行划分

4 对分支\({6,7,15}\)进行划分

5 对分支\({7,15}\)进行划分

1 考虑结点\(7,15\)

2 考虑结点\(6,715\)色泽=？

3 考虑结点\(1,2,3,14\)色泽=？

4考虑 \(6,7，15,17\)根蒂=？

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

决策树 机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝

2 对分支结点\({1,2,3,14}\)进行划分

3 对分支 \({6,7,15,17}\)进行划分

4 对分支\({6,7,15}\)进行划分

5 对分支\({7,15}\)​进行划分

1 考虑结点\(7,15\)

2 考虑结点\(6,715\)色泽=？

3 考虑结点\(1,2,3,14\)​​色泽=？

4考虑 \(6,7，15,17\)根蒂=？

继续阅读

决策树机器学习，西瓜书p80 表4.2 使用信息增益生成决策树及后剪枝

5 对分支\({7,15}\)进行划分

3 考虑结点\(1,2,3,14\)色泽=？