天天看點

連續特征離散化的方法

   在特征工程中,特别是logisticregression上,需要把一些連續特征進行離散化處理。離散化除了一些計算方面等等好處,還可以引入非線性特性,也可以很友善的做cross-feature。離散特征的增加和減少都很容易,易于模型的快速疊代。此外,噪聲很大的環境中,離散化可以降低特征中包含的噪聲,提升特征的表達能力。

   連續特征離散化最常用的方法:

(1)劃分區間(分箱法)

       如1-100歲可以劃分為:(0-18)未成年、(18-50)中青年、(50-100)中老年.

       這其中包括等距劃分、按階段劃分、特殊點劃分等。

(2)卡方檢驗(CHI)

      分裂方法,就是找到一個分裂點看,左右2個區間,在目标值上分布是否有顯著差異,有顯著差異就分裂,否則就忽略。這個點可以每次找差異最大的點。合并類似,先劃分如果很小單元區間,按順序合并在目标值上分布不顯著的相鄰區間,直到收斂。卡方值通常由χ2分布近似求得。

      χ2表示觀察值與理論值之問的偏離程度。計算這種偏離程度的基本思路如下:

   (1)設A代表某個類别的觀察頻數,E代表基于H0計算出的期望頻數,A與E之差稱為殘差。

   (2)顯然,殘差可以表示某一個類别觀察值和理論值的偏離程度,但如果将殘差簡單相加以表示各類别觀察頻數與期望頻數的差别,則有一定的不足之處。因為殘差有正有負,相加後會彼此抵消,總和仍然為0,為此可以将殘差平方後求和。

    (3)另一方面,殘差大小是一個相對的概念,相對于期望頻數為10時,期望頻數為20的殘差非常大,但相對于期望頻數為1 000時20的殘差就很小了。考慮到這一點,人們又将殘差平方除以期望頻數再求和,以估計觀察頻數與期望頻數的差别。

    進行上述操作之後,就得到了常用的χ2統計量,由于它最初是由英國統計學家Karl Pearson在1900年首次提出的,是以也稱之為Pearson χ2,其計算公式為

連續特征離散化的方法

   較大時,χ2統計量近似服從k-1(計算Ei時用到的參數個數)個自由度的卡方分布。

(3)資訊增益法(IG)

這個和決策樹的學習很類似。分裂方法,就是找到一個分裂點看,左右2個區間,看分裂前後資訊增益變化門檻值,如果內插補點超過門檻值(正值,分列前-分裂後資訊熵),則分裂。每次找內插補點最大的點做分裂點,直到收斂。合并類似,先劃分如果很小單元區間,按順序合并資訊增益小于門檻值的相鄰區間,直到收斂。

連續特征離散化的方法

,資訊增益為總的熵減去某個分類标準對應的熵。

熵:

連續特征離散化的方法

條件熵:

連續特征離散化的方法
連續特征離散化的方法

l  V(A)是屬性A的值域

l  S是樣本集合

l  Sv是S種在屬性A上值等于v的樣本集合

資訊增益比率實際在資訊增益的基礎上,又将其除以一個值,這個值一般被稱為為分裂資訊量:

連續特征離散化的方法

繼續閱讀