自動預測保險理賠：用具體案例講解機器學習之特征預處理

所有的這些子產品應安裝在你的機器上。本文使用的是python 2.7.11。如果你已經安裝這些子產品，你可以簡單地做下列操作

使用pandas讀取資料集

檢視資料集

你可能會發現列印了兩次相同的東西，第一次python列印的是小數量的列和前五個觀察結果，然而第二次列印的是所有的列和5個觀察結果，這是因為

確定在頭部有5，否則它會在螢幕上列印所有的一切，這将會是不漂亮的。檢視訓練集和測試集所有的清單示

這裡存在兩個資料集中的不需要分析的id列，此外，将保留訓練集中的損失列作為一個獨立變量

檢視連續變量和其基本統計分析

在很多競争中，會發現有一些特征是在訓練集中，但不在測試集中，反之亦然。

在這種情況下，将看到訓練集和測試集之間存在不同的列。

現在區類别變量和連續變量，對于給定的資料集，有兩種方式去找到它們：

1.變量中有‘cat’和‘cont’，定義它們；

2.利用pandas考慮資料類型；

連續變量之間的相關性

檢視這些變量之間的相關性，這樣做的目的是為了除去高度相關的變量

檢視目前在類别變量處的标簽，即使沒有任何不同的列，一些标簽可能不會在這個或其它資料集中出現

畫出類别變量并檢視變量分布

類别變量的一個熱點—編碼

使用一個熱門aka方案編碼分類整型特征，這個變換的輸入應該是整型矩陣，

表示通過分類特征擷取的值；輸出将是稀疏矩陣，其中每一列對應于一個特征的可能值。

1. 第一種方法是使用 dictvectorizer對特征中的标簽進行編碼

2. 第二種方法是使用pandas獲得虛拟變量

3. 其中一些變量隻有兩個标簽或者某些變量有兩個以上的标簽，一種方法是使用因式分解将這些标簽轉化為數字

4. 另外一種方法是将虛拟變量和因式分解混合起來使用

以下是整個代碼

文章原标題《machine learning:pre-processing features》，作者：chris rudzki

翻譯者：海棠

wechat：269970760

<a href="https://weibo.com/u/3910993635/" target="_blank">weibo：uncle_lld </a>

微信公衆号：ai科技時訊

繼續閱讀