天天看點

自動預測保險理賠:用具體案例講解機器學習之特征預處理

所有的這些子產品應安裝在你的機器上。本文使用的是python 2.7.11。如果你已經安裝這些子產品,你可以簡單地做下列操作

使用pandas讀取資料集

檢視資料集

你可能會發現列印了兩次相同的東西,第一次python列印的是小數量的列和前五個觀察結果,然而第二次列印的是所有的列和5個觀察結果,這是因為

確定在頭部有5,否則它會在螢幕上列印所有的一切,這将會是不漂亮的。檢視訓練集和測試集所有的清單示

這裡存在兩個資料集中的不需要分析的id列,此外,将保留訓練集中的損失列作為一個獨立變量

檢視連續變量和其基本統計分析

在很多競争中,會發現有一些特征是在訓練集中,但不在測試集中,反之亦然。

在這種情況下,将看到訓練集和測試集之間存在不同的列。

現在區類别變量和連續變量,對于給定的資料集,有兩種方式去找到它們:

1.變量中有‘cat’和‘cont’,定義它們;

2.利用pandas考慮資料類型;

連續變量之間的相關性

檢視這些變量之間的相關性,這樣做的目的是為了除去高度相關的變量

檢視目前在類别變量處的标簽,即使沒有任何不同的列,一些标簽可能不會在這個或其它資料集中出現

畫出類别變量并檢視變量分布

自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理

類别變量的一個熱點—編碼

使用一個熱門aka方案編碼分類整型特征,這個變換的輸入應該是整型矩陣,

表示通過分類特征擷取的值;輸出将是稀疏矩陣,其中每一列對應于一個特征的可能值。

1. 第一種方法是使用 dictvectorizer對特征中的标簽進行編碼

2. 第二種方法是使用pandas獲得虛拟變量

3. 其中一些變量隻有兩個标簽或者某些變量有兩個以上的标簽,一種方法是使用因式分解将這些标簽轉化為數字

4. 另外一種方法是将虛拟變量和因式分解混合起來使用

以下是整個代碼

文章原标題《machine learning:pre-processing features》,作者:chris rudzki

翻譯者: 海棠 

wechat:269970760 

<a href="https://weibo.com/u/3910993635/" target="_blank">weibo:uncle_lld </a>

email:[email protected]

微信公衆号:ai科技時訊

自動預測保險理賠:用具體案例講解機器學習之特征預處理