天天看點

決策樹算法_基本思想

核心思想:資料集劃分,确定劃分條件,得出一類一類的資料子集。

決策樹學習的本質是從訓練資料集上歸納出一組分類規則,通常采用啟發式的方法,即局部最優。通常分為三個步驟:特征選擇、決策樹生成和決策樹的修剪。

決策樹算法_基本思想

特征選擇

  • 特征的選擇是要使經過劃分後,不同分類的資料盡量分開。
  • 劃分後的分區資料越純,目前的分裂規則就越合适。

    衡量一個節點内的資料純度有三種:

    熵、基尼和方差。前兩種是針對分類,方差是針對回歸。

熵:

1)資訊量

資訊量由事件發生的機率所決定的。經常發生的事情沒有什麼資訊量,隻有小機率的事情才有資訊量。

決策樹算法_基本思想

2)資訊熵

其實就是期望

決策樹算法_基本思想

3)資訊增益

4)資訊增益比