天天看點

自動預測保險理賠:用具體案例講解機器學習之特征預處理

所有的這些子產品應安裝在你的機器上。本文使用的是python 2.7.11。如果你已經安裝這些子產品,你可以簡單地做下列操作

使用pandas讀取資料集

檢視資料集

你可能會發現列印了兩次相同的東西,第一次的python 列印的是小數量的列和前五個觀察結果,然而第二次列印的是所有的列和5 個觀察結果,這是因為

確定在頭部有 5 ,否則它會在螢幕上列印所有的一切,這将會是不漂亮的。檢視訓練集和測試集所有的清單示

這裡存在兩個資料集中的不需要分析的id 列,此外,将保留訓練集中的損失列作為一個獨立變量

檢視連續變量和其基本統計分析

在很多競争中,會發現有一些特征是在訓練集中,但不在測試集中,反之亦然。

在這種情況下,将看到訓練集和測試集之間存在不同的列。

現在區類别變量和連續變量,對于給定的資料集,有兩種方式去找到它們:

1. 變量中有 'cat' 和'cont' ,定義它們;

2. 利用大熊貓考慮資料類型;

連續變量之間的相關性

檢視這些變量之間的相關性,這樣做的目的是為了除去高度相關的變量

檢視目前在類别變量處的标簽,即使沒有任何不同的列,一些标簽可能不會在這個或其它資料集中出現

畫出類别變量并檢視變量分布

自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理
自動預測保險理賠:用具體案例講解機器學習之特征預處理

類别變量的一個熱點- 編碼

使用一個熱門又名方案編碼分類整型特征,這個變換的輸入應該是整型矩陣,

表示通過分類特征擷取的值;輸出将是稀疏矩陣,其中每一列對應于一個特征的可能值。

1. 第一種方法是使用dictvectorizer 對特征中的标簽進行編碼

2. 第二種方法是使用大熊貓獲得虛拟變量

3.  其中一些變量隻有兩個标簽或者某些變量有兩個以上的标簽,一種方法是使用因式分解将這些标簽轉化為數字

4.  另外一種方法是将虛拟變量和因式分解混合起來使用

以下是整個代碼

<a href="https://promotion.aliyun.com/ntms/act/ambassador/sharetouser.html?usercode=lwju78qa&amp;utm_source=lwju78qa">數十款阿裡雲産品限時折扣中,趕緊點選領劵開始雲上實踐吧!</a>

文章原标題“機器學習:預處理特性”,作者:chris rudzki

 翻譯者:海棠