天天看點

one-hot enconding,類别型特征,非數值型特征。

        在計算廣告領域,對于CTR,CVR,反作弊等内容時,對于categorical features,時常會用one-hot enconding 的處理方法。

借用網際網路已有的部落格,

在很多機器學習任務中,特征并不總是連續值,而有可能是分類值。

例如,考慮一下的三個特征:

["male", "female"]

["from Europe", "from US", "from Asia"]

["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果将上述特征用數字表示,效率會高很多。例如:

["male", "from US", "uses Internet Explorer"] 表示為[0, 1, 3]

["female", "from Asia", "uses Chrome"]表示為[1, 2, 1]

但是,即使轉化為數字表示後,上述資料也不能直接用在我們的分類器中。因為,分類器往往預設資料資料是連續的,并且是有序的。但是,按照我們上述的表示,數字并不是有序的,而是随機配置設定的。

獨熱編碼

為了解決上述問題,其中一種可能的解決方法是采用獨熱編碼(One-Hot Encoding)。

獨熱編碼即 One-Hot 編碼,又稱一位有效編碼,其方法是使用N位狀态寄存器來對N個狀态進行編碼,每個狀态都由他獨立的寄存器位,并且在任意時候,其中隻有一位有效。

例如:

自然狀态碼為:000,001,010,011,100,101

獨熱編碼為:000001,000010,000100,001000,010000,100000

可以這樣了解,對于每一個特征,如果它有m個可能值,那麼經過獨熱編碼後,就變成了m個二進制特征。并且,這些特征互斥,每次隻有一個激活。是以,資料會變成稀疏的。

這樣做的好處主要有:

  1. 解決了分類器不好處理屬性資料的問題
  2. 在一定程度上也起到了擴充特征的作用

舉例

我們基于python和Scikit-learn寫一個簡單的例子:

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()

enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])

enc.transform([[0, 1, 3]]).toarray()

輸出結果:

array([[ 1.,  0.,  0.,  1.,  0.,  0.,  0.,  0.,  1.]])

即對于  F1 F2 F3

   0   0   3

   1   1   0

   1   0   2

可以編碼成2+2+4 = 8個特征。

補充:

對于one-hot enconding 之後還可以進行特征篩選,比如enconding 之後有1000維特征,其中有500維是表現不好的,可以把表現不好的歸為一維。

是以得到 500+1 維特征,不僅壓縮特征。

繼續閱讀