天天看點

熵,決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

1. 資訊熵

資訊量

資訊量度量一個事件/一個随機變量具體值發生所帶來的資訊多少。

  1. 一些性質
  • 資訊量大于等于0。
  • 事件發生的機率與資訊量成反比。
  • 互相獨立事件 A, B 同時發生的資訊量等于各自發生時的資訊量之和。
  1. 公式

    H ( x ) = − l o g 2 ( x ) H(x) = -log_2(x) H(x)=−log2​(x)

資訊熵(entropy)

資訊熵度量所有可能事件/随機變量資訊量的期望。

熵,決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

n 表示集合中分組數量。pi 表示第 i 個分組的元素在集合中出現的機率。

資訊增益(Information gain)

條件熵是指某一條件下的資訊熵。資訊增益表示某一條件下資訊不确定性減少的程度。

熵,決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

T 表示選擇的特征。Entropy(Pv) 表示 T=v 時的熵。

2. 決策樹

2.1 建樹/訓練

  1. 根據樣本分類計算集合的熵值,權重平均後得到整個資料集的熵值。
  2. 計算每個特征的資訊增益,選擇區分能力最強的特征,并對每個集合進行更細的劃分。
  3. 重複上述步驟,直到沒有更多特征或所有樣本都已被分好類。

2.2 算法

1) 概覽

算法名 特征選擇标準 特點
ID3 資訊增益 取值過多時,容易導緻機器學習中的過拟合
C4.5 資訊增益率 克服因取值過多導緻的過拟合
CART 基尼指數 采用二叉樹,每次把資料切成兩份(而非根據特征值切分)

2) 資訊增益率 & C4.5算法

子集數量越多,分裂資訊值越大。

熵,決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

訓練集 P 通過特征 T 劃分為 n 個子集合。|Pi| 表示 T=i 時子集合中樣本的數量。|P|表示訓練集 P 中樣本的數量。

資訊增益率引入分裂資訊項來懲罰取值較多的特征。

熵,決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

3) 基尼指數 & CART算法

基尼指數是熵模型的近似。由于沒有對數運算,基尼指數的計算開銷較小。

熵,決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

n 表示集合 P 包含的組别數。Pi 表示樣本分到某一組别的機率。

整個資料集的基尼系數計算公式如下。

熵,決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

2.3 優化

  • 剪枝
  • 随機森林
  • … …

3. 特征選擇

特征是可用于模型拟合的各種資料。

4. 參考

程式員的數學基礎課

通俗了解資訊熵

為什麼決策樹中經常用熵作為判别條件而不是基尼不純度?

繼續閱讀