在特征工程中,特别是logisticregression上,需要把一些連續特征進行離散化處理。離散化除了一些計算方面等等好處,還可以引入非線性特性,也可以很友善的做cross-feature。離散特征的增加和減少都很容易,易于模型的快速疊代。此外,噪聲很大的環境中,離散化可以降低特征中包含的噪聲,提升特征的表達能力。
連續特征離散化最常用的方法:
(1)劃分區間(分箱法)
如1-100歲可以劃分為:(0-18)未成年、(18-50)中青年、(50-100)中老年.
這其中包括等距劃分、按階段劃分、特殊點劃分等。
(2)卡方檢驗(CHI)
分裂方法,就是找到一個分裂點看,左右2個區間,在目标值上分布是否有顯著差異,有顯著差異就分裂,否則就忽略。這個點可以每次找差異最大的點。合并類似,先劃分如果很小單元區間,按順序合并在目标值上分布不顯著的相鄰區間,直到收斂。卡方值通常由χ2分布近似求得。
χ2表示觀察值與理論值之問的偏離程度。計算這種偏離程度的基本思路如下:
(1)設A代表某個類别的觀察頻數,E代表基于H0計算出的期望頻數,A與E之差稱為殘差。
(2)顯然,殘差可以表示某一個類别觀察值和理論值的偏離程度,但如果将殘差簡單相加以表示各類别觀察頻數與期望頻數的差别,則有一定的不足之處。因為殘差有正有負,相加後會彼此抵消,總和仍然為0,為此可以将殘差平方後求和。
(3)另一方面,殘差大小是一個相對的概念,相對于期望頻數為10時,期望頻數為20的殘差非常大,但相對于期望頻數為1 000時20的殘差就很小了。考慮到這一點,人們又将殘差平方除以期望頻數再求和,以估計觀察頻數與期望頻數的差别。
進行上述操作之後,就得到了常用的χ2統計量,由于它最初是由英國統計學家Karl Pearson在1900年首次提出的,是以也稱之為Pearson χ2,其計算公式為
較大時,χ2統計量近似服從k-1(計算Ei時用到的參數個數)個自由度的卡方分布。
(3)資訊增益法(IG)
這個和決策樹的學習很類似。分裂方法,就是找到一個分裂點看,左右2個區間,看分裂前後資訊增益變化門檻值,如果內插補點超過門檻值(正值,分列前-分裂後資訊熵),則分裂。每次找內插補點最大的點做分裂點,直到收斂。合并類似,先劃分如果很小單元區間,按順序合并資訊增益小于門檻值的相鄰區間,直到收斂。
,資訊增益為總的熵減去某個分類标準對應的熵。
熵:
條件熵:
l V(A)是屬性A的值域
l S是樣本集合
l Sv是S種在屬性A上值等于v的樣本集合
資訊增益比率實際在資訊增益的基礎上,又将其除以一個值,這個值一般被稱為為分裂資訊量: