自動預測保險理賠：用具體案例講解機器學習之特征預處理

所有的這些子產品應安裝在你的機器上。本文使用的是python 2.7.11。如果你已經安裝這些子產品，你可以簡單地做下列操作

使用pandas讀取資料集

檢視資料集

你可能會發現列印了兩次相同的東西，第一次的python 列印的是小數量的列和前五個觀察結果，然而第二次列印的是所有的列和5 個觀察結果，這是因為

確定在頭部有 5 ，否則它會在螢幕上列印所有的一切，這将會是不漂亮的。檢視訓練集和測試集所有的清單示

這裡存在兩個資料集中的不需要分析的id 列，此外，将保留訓練集中的損失列作為一個獨立變量

檢視連續變量和其基本統計分析

在很多競争中，會發現有一些特征是在訓練集中，但不在測試集中，反之亦然。

在這種情況下，将看到訓練集和測試集之間存在不同的列。

現在區類别變量和連續變量，對于給定的資料集，有兩種方式去找到它們：

1. 變量中有 'cat' 和'cont' ，定義它們;

2. 利用大熊貓考慮資料類型;

連續變量之間的相關性

檢視這些變量之間的相關性，這樣做的目的是為了除去高度相關的變量

檢視目前在類别變量處的标簽，即使沒有任何不同的列，一些标簽可能不會在這個或其它資料集中出現

畫出類别變量并檢視變量分布

類别變量的一個熱點- 編碼

使用一個熱門又名方案編碼分類整型特征，這個變換的輸入應該是整型矩陣，

表示通過分類特征擷取的值;輸出将是稀疏矩陣，其中每一列對應于一個特征的可能值。

1. 第一種方法是使用dictvectorizer 對特征中的标簽進行編碼

2. 第二種方法是使用大熊貓獲得虛拟變量

3. 其中一些變量隻有兩個标簽或者某些變量有兩個以上的标簽，一種方法是使用因式分解将這些标簽轉化為數字

4. 另外一種方法是将虛拟變量和因式分解混合起來使用

以下是整個代碼

<a href="https://promotion.aliyun.com/ntms/act/ambassador/sharetouser.html?usercode=lwju78qa&utm_source=lwju78qa">數十款阿裡雲産品限時折扣中，趕緊點選領劵開始雲上實踐吧！</a>

文章原标題“機器學習：預處理特性”，作者：chris rudzki

翻譯者：海棠

繼續閱讀