詳解one-hot編碼,讓你更清晰的了解它

2023-03-02 08:26:00

前言:

在機器學習算法中，我們經常會遇到分類特征，例如：人的性别有男女，祖國有中國，美國，法國等。

這些特征值并不是連續的，而是離散的，無序的。通常我們需要對其進行特征數字化。

那什麼是特征數字化呢？例子如下：

性别特征：[“男”，“女”]
祖國特征：[“中國”，"美國，“法國”]
運動特征：[“足球”，“籃球”，“羽毛球”，“乒乓球”]

假如某個樣本（某個人），他的特征是這樣的[“男”,“中國”,“乒乓球”]，我們可以用 [0,0,4]

來表示，但是這樣的特征處理并不能直接放入機器學習算法中。因為類别之間是無序的（運動資料就是任意排序的）。

One-Hot 編碼

獨熱編碼即 One-Hot 編碼，又稱一位有效編碼，其方法是使用N位狀态寄存器來對N個狀态進行編碼，每個狀态都由他獨立的寄存器位，并且在任意時候，其中隻有一位有效。獨熱編碼恰好是一種解決上述問題的好辦法。不過資料也是以變得稀疏。

詳解one-hot編碼,讓你更清晰的了解它

One-Hot實際案例

就拿上面的例子來說吧，性别特征：[“男”,“女”]，按照N位狀态寄存器來對N個狀态進行編碼的原理，咱們處理後應該是這樣的（這裡隻有兩個特征，是以N=2）：

男 => 10

女 => 01

祖國特征：[“中國”，"美國，“法國”]（這裡N=3）：

中國 => 100

美國 => 010

法國 => 001

運動特征：[“足球”，“籃球”，“羽毛球”，“乒乓球”]（這裡N=4）：

足球 => 1000

籃球 => 0100

羽毛球 => 0010

乒乓球 => 0001

是以，當一個樣本為[“男”,“中國”,“乒乓球”]的時候，完整的特征數字化的結果為：

[1，0，1，0，0，0，0，0，1]

詳解one-hot編碼,讓你更清晰的了解它

from sklearn import preprocessing  
   
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  #這裡一共有4個資料，3種特征
   
array = enc.transform([[0,1,3]]).toarray()  #這裡使用一個新的資料來測試
   
print array   # [[ 1  0  0  1  0  0  0  0  1]]

為什麼使用one-hot編碼來處理離散型特征?

關注微信公衆号:讓我愛上它Computer 擷取更多學習資料

詳解one-hot編碼,讓你更清晰的了解它

繼續閱讀

考證大全 | 證券從業資格考試

敲黑闆！2021年證券從業考試考點預測

2021年銀行從業考試考情介紹,果斷收藏!

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

Netty——自定義協定解決TCP粘包拆包問題什麼是TCP粘包拆包自定義協定解決拆包粘包問題