熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

2023-05-07 00:14:29

1. 資訊熵

資訊量

資訊量度量一個事件/一個随機變量具體值發生所帶來的資訊多少。

一些性質

資訊量大于等于0。
事件發生的機率與資訊量成反比。
互相獨立事件 A, B 同時發生的資訊量等于各自發生時的資訊量之和。

公式

H ( x ) = − l o g 2 ( x ) H(x) = -log_2(x) H(x)=−log2(x)

資訊熵（entropy）

資訊熵度量所有可能事件/随機變量資訊量的期望。

熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

n 表示集合中分組數量。pi 表示第 i 個分組的元素在集合中出現的機率。

資訊增益（Information gain）

條件熵是指某一條件下的資訊熵。資訊增益表示某一條件下資訊不确定性減少的程度。

熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

T 表示選擇的特征。Entropy(Pv) 表示 T=v 時的熵。

2. 決策樹

2.1 建樹/訓練

根據樣本分類計算集合的熵值，權重平均後得到整個資料集的熵值。
計算每個特征的資訊增益，選擇區分能力最強的特征，并對每個集合進行更細的劃分。
重複上述步驟，直到沒有更多特征或所有樣本都已被分好類。

2.2 算法

1) 概覽

算法名	特征選擇标準	特點
ID3	資訊增益	取值過多時，容易導緻機器學習中的過拟合
C4.5	資訊增益率	克服因取值過多導緻的過拟合
CART	基尼指數	采用二叉樹，每次把資料切成兩份（而非根據特征值切分）

2) 資訊增益率 & C4.5算法

子集數量越多，分裂資訊值越大。

熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

訓練集 P 通過特征 T 劃分為 n 個子集合。|Pi| 表示 T=i 時子集合中樣本的數量。|P|表示訓練集 P 中樣本的數量。

資訊增益率引入分裂資訊項來懲罰取值較多的特征。

熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

3) 基尼指數 & CART算法

基尼指數是熵模型的近似。由于沒有對數運算，基尼指數的計算開銷較小。

熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

n 表示集合 P 包含的組别數。Pi 表示樣本分到某一組别的機率。

整個資料集的基尼系數計算公式如下。

熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

2.3 優化

剪枝
随機森林
… …

3. 特征選擇

特征是可用于模型拟合的各種資料。

4. 參考

程式員的數學基礎課

通俗了解資訊熵

為什麼決策樹中經常用熵作為判别條件而不是基尼不純度？

熵，決策樹和特征選擇1. 資訊熵2. 決策樹3. 特征選擇4. 參考

1. 資訊熵

資訊量

資訊熵（entropy）

資訊增益（Information gain）

2. 決策樹

2.1 建樹/訓練

2.2 算法

1) 概覽

2) 資訊增益率 & C4.5算法

3) 基尼指數 & CART算法

2.3 優化

3. 特征選擇

4. 參考

繼續閱讀

作為泵速和負載扭矩函數的靜液壓傳動系統性能研究。靜液壓傳動（HST）系統是流體動力系統領域最重要的應用之一。在HST系統

微科普：基于雲模型的基本機率指派生成方法及應用雲模型是一種基于不确定性推理的數學模型，它能把定性概念和定量描述聯系起來，

刀具幾何參數（主偏角、副偏角、主後角、副後腳、軸向前角、徑向前角、螺旋角度、刃數、直徑）與轉速、進給速度、吃刀量、切削寬

學生問的兩道數列綜合好題題1：将實際問題抽象出數學模型，第n行的第一個數與第n+1行的第一個數之間的關系，即找遞推式，由

國中數學這66個模型學會了，幾何做題速度自然就提升了。9年級數學模型篇——【圓】垂徑定理、相交弦定理、切割線定理、雙切線

Facebook 開源大規模預測工具 Prophet：支援 Python 和 R Facebook 開源大規模預測工具 Prophet：支援 Python 和 R

自動泊車的路徑動态規劃問題研究附Matlab代碼

永磁同步電機弱磁控制模組化仿真

多元線性回歸分析示例

滲流控制措施在堤壩防滲設計中的關鍵技術和實施方法堤壩是水利工程中重要的水文建築物，它承擔着水庫調節水位、防洪保護和供水等

#微頭條創作計劃#構造數學模型求解三角函數問題當面對一些複雜的數學問題，用正常方法難以突破時，可通過觀察、分析題設或結論

中考應用題着眼于解決實際問題，求值、方案設計、最優選擇是常考察的3個内容。解決問題的基本數學模型是方程（整式方程和分式方

布谷鳥算法詳細講解

單模NH3分子雷射器中混沌運動特性分析混沌是指确定性系統内的随機性,是大自然中普遍存在的一種現象｡1963年,Loren

《數學C類數學模型》2023最新版高中數學電子課本PDF學霸預習用書

2022數學模組化國賽A題波浪能最大輸出功率設計思路分析+參考論文+代碼