1. 資訊熵
資訊量
資訊量度量一個事件/一個随機變量具體值發生所帶來的資訊多少。
- 一些性質
- 資訊量大于等于0。
- 事件發生的機率與資訊量成反比。
- 互相獨立事件 A, B 同時發生的資訊量等于各自發生時的資訊量之和。
-
公式
H ( x ) = − l o g 2 ( x ) H(x) = -log_2(x) H(x)=−log2(x)
資訊熵(entropy)
資訊熵度量所有可能事件/随機變量資訊量的期望。
n 表示集合中分組數量。pi 表示第 i 個分組的元素在集合中出現的機率。
資訊增益(Information gain)
條件熵是指某一條件下的資訊熵。資訊增益表示某一條件下資訊不确定性減少的程度。
T 表示選擇的特征。Entropy(Pv) 表示 T=v 時的熵。
2. 決策樹
2.1 建樹/訓練
- 根據樣本分類計算集合的熵值,權重平均後得到整個資料集的熵值。
- 計算每個特征的資訊增益,選擇區分能力最強的特征,并對每個集合進行更細的劃分。
- 重複上述步驟,直到沒有更多特征或所有樣本都已被分好類。
2.2 算法
1) 概覽
算法名 | 特征選擇标準 | 特點 |
---|---|---|
ID3 | 資訊增益 | 取值過多時,容易導緻機器學習中的過拟合 |
C4.5 | 資訊增益率 | 克服因取值過多導緻的過拟合 |
CART | 基尼指數 | 采用二叉樹,每次把資料切成兩份(而非根據特征值切分) |
2) 資訊增益率 & C4.5算法
子集數量越多,分裂資訊值越大。
訓練集 P 通過特征 T 劃分為 n 個子集合。|Pi| 表示 T=i 時子集合中樣本的數量。|P|表示訓練集 P 中樣本的數量。
資訊增益率引入分裂資訊項來懲罰取值較多的特征。
3) 基尼指數 & CART算法
基尼指數是熵模型的近似。由于沒有對數運算,基尼指數的計算開銷較小。
n 表示集合 P 包含的組别數。Pi 表示樣本分到某一組别的機率。
整個資料集的基尼系數計算公式如下。
2.3 優化
- 剪枝
- 随機森林
- … …
3. 特征選擇
特征是可用于模型拟合的各種資料。
4. 參考
程式員的數學基礎課
通俗了解資訊熵
為什麼決策樹中經常用熵作為判别條件而不是基尼不純度?