天天看點

不敗給名詞! 了解特征工程特征工程:2.特征預處理

機器學習

基本概念:

人工智能 > 機器學習 > 深度學習

機器學習:

機器學習是從資料中自動分析獲得規律(模型), 并利用規律對未知資料進行預測.
  • 根據使用者喜好資訊, 智能推薦商品(淘寶首頁推薦)
  • 分析客服問答模型, 替代人工客服(JD客服)
  • 分析客戶信用資料, 計算信貸額度(螞蟻金服)

特征

對于人類個體而言姓名,年齡,性别,都是其自身的特征

特征值, 目标值

判定男女
  • 特征值(已知的): 身高, 體重, 頭發長度, 體征(很多)
  • 目标值(未知的): 男, 女

樣本

如果對全班學生成績進行分析,一個學生就是一個樣本

特征工程:

特征工程是将原始資料轉換為更好地代表預測模型的潛在問題的特征的過程,進而提高了對未知資料的預測準确性

  • 特征抽取
  • 特征預處理
  • 特征降維

1.特征抽取

1.1 字典特征抽取: 萬能的0和1之字典特征抽取 (one-hot編碼)

1.2 文本特征抽取: 對自然語言進行情感分析(CountVectorizer, TfidfVectorizer)

  • one-hot編碼(字典,清單類型均可)

    機器會将所有樣本中, 出現過的特征統統列舉出來,然後每個樣本挨個比對所有特征,如果存在對應的特征則取1, 不存在則取0

one-hot
from sklearn.feature_extraction.text import CountVectorizer
import jieba

# 肖申克影評
xsk_text = """
豆瓣有人問,為啥肖申克評價這麼高?他是不是隻是從一個滿是泥濘的臭水溝的監牢逃出而已?其實救贖是對自己的破繭成蝶,每個人眼前都有一個模版,一個完美的人的樣子,很美,很有靈魂,很有姿态,得到很多人愛。為什麼自己總是做不好,自己總是不美?自己總是如此多的陋習?但是最後這一個人還是隻能從自己的繭裡面沖破而出,或許學會了飛,或許意境忘了怎麼飛,但這個速度的快慢不會影響最早的結果,最終你還是要學會怎麼從醜陋變得自信和自強~ 接受一個事實,在某個層面上,在三維時空看起來,蝴蝶都是一樣的美,蝴蝶其實根本上長得一樣~ 
"""
# 中文分詞
xsk = jieba.cut(xsk_text)
xsk_list = [x for x in xsk]
# 執行個體化文本特征抽取
countvec = CountVectorizer()
# 填充并轉換資料
data = countvec.fit_transform(xsk_list)
# 列印抽取的特征名
print(countvec.get_feature_names())
# 将資料以類one_hot編碼方式展示
print(data.toarray())
           

2.特征預處理

通過特定的統計方法(數學方法)将資料轉換成算法要求的資料

2.1 歸一化

将某一列類型的資料,縮放到特定的範圍(一般為縮放到0至1之間),相當于把

滿分為100分

轉換成

滿分為1分

,原來百分制能考95分,現在隻能算作0.95分

原始資料 歸一化後
[0, 0, 10] [0, 0, 0]
[3, 3, 13] [0.3, 0.15, 0.3]
[5, 5, 15] [0.5, 0.25, 0.5]
[8, 8, 18] [0.8, 0.4, 0.8]
[10, 20, 20] [1, 1, 1]
from sklearn.preprocessing import MinMaxScaler

# 建立執行個體
mm = MinMaxScaler()
# 原始資料
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 為執行個體填充并轉換資料
data = mm.fit_transform(lee)
# 列印轉換後的結果
print(data)
           
歸一化
缺點: 如果

最大值過大

最小值過小

異常, 就容易影響準确性

2.2标準化

  • 通過對原始資料進行變換,把資料變換到均值為0,方差為1範圍内
rom sklearn.preprocessing import StandardScaler

# 标準化執行個體化對象
std = StandardScaler()
# 建立資料
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 填充并轉換資料
data = std.fit_transform(lee)
# 列印轉換後的資料
print(data)
           
均值為0, 方差小于等于1
  • 填充缺失值
import numpy as np
from sklearn.preprocessing import Imputer

# 執行個體化填補缺失值的對象
imp = Imputer(missing_values="NaN",strategy="mean", axis=0)
# 建立存在缺失值的資料
lee = [[np.nan, 8, 4],[8, 9, np.nan], [2, 8, 1]]
# 填充并轉換資料
data = imp.fit_transform(lee)
# 列印轉換結果
print(data)
           
填補缺失值

3. 資料降維

3.1 特征選擇: 将某些低于特定方差的特征值過濾掉(特征較少時采用)

from sklearn.feature_selection import VarianceThreshold

def var():
    """
    資料降維
    """
    
    var_thr = VarianceThreshold()

    # 第一列和第四列資料方差均為0, 會被消除
    lee = [
        [0, 2, 0, 10],
        [0, 1, 400, 10],
        [0, 1, 100, 10]]
    data = var_thr.fit_transform(lee)
    # 預設降維效果
    print("消除方差為0的特征列之後:")
    print(data)


    # 執行個體化variancethreshold,消除方差小于10的特征列
    var_thr2 = VarianceThreshold(threshold=10)
    # 填充并轉換資料
    data2 = var_thr2.fit_transform(lee)
    # 列印結果
    print("消除方差小于10的特征列之後:")
    print(data2)

if __name__ == '__main__':
    var()
           
過濾式降維

3.2主成分分析(PCA)

特征較多時采用

用低次元表示高次元,例如用二維的照片表現出三維世界的立體感(盡可能損失較少的資訊)

from sklearn.decomposition import PCA

def my_pca():
    lee = [[10, 15, 20, 25],
           [11, 16, 21, 26],
           [20, 25, 30, 35]]
    # n_components為整數時,表示結果保留的特征數量, n_components為小數時,表示保留的特征資訊的百分比
    i_pca = PCA(n_components=2)

    data1 = i_pca.fit_transform(lee)
    print("保留兩個特征的結果為:")
    print(data1)

    f_pca = PCA(n_components=0.95)

    data2 = f_pca.fit_transform(lee)
    print("保留95%資訊的結果為:")
    print(data2)


if __name__ == '__main__':
    my_pca()
           
PCA

繼續閱讀