機器學習

基本概念:
人工智能 > 機器學習 > 深度學習
機器學習:
機器學習是從資料中自動分析獲得規律(模型), 并利用規律對未知資料進行預測.

根據使用者喜好資訊, 智能推薦商品(淘寶首頁推薦)

分析客服問答模型, 替代人工客服(JD客服)

分析客戶信用資料, 計算信貸額度(螞蟻金服)

特征
對于人類個體而言姓名,年齡,性别,都是其自身的特征
特征值, 目标值

判定男女

特征值(已知的): 身高, 體重, 頭發長度, 體征(很多)

目标值(未知的): 男, 女

樣本
如果對全班學生成績進行分析,一個學生就是一個樣本

特征工程:

特征工程是将原始資料轉換為更好地代表預測模型的潛在問題的特征的過程，進而提高了對未知資料的預測準确性

特征抽取
特征預處理
特征降維

1.特征抽取

1.1 字典特征抽取: 萬能的0和1之字典特征抽取 (one-hot編碼)

1.2 文本特征抽取: 對自然語言進行情感分析(CountVectorizer, TfidfVectorizer)

one-hot編碼(字典,清單類型均可)

機器會将所有樣本中, 出現過的特征統統列舉出來,然後每個樣本挨個比對所有特征,如果存在對應的特征則取1, 不存在則取0

one-hot

from sklearn.feature_extraction.text import CountVectorizer
import jieba

# 肖申克影評
xsk_text = """
豆瓣有人問，為啥肖申克評價這麼高？他是不是隻是從一個滿是泥濘的臭水溝的監牢逃出而已？其實救贖是對自己的破繭成蝶，每個人眼前都有一個模版，一個完美的人的樣子，很美，很有靈魂，很有姿态，得到很多人愛。為什麼自己總是做不好，自己總是不美？自己總是如此多的陋習？但是最後這一個人還是隻能從自己的繭裡面沖破而出，或許學會了飛，或許意境忘了怎麼飛，但這個速度的快慢不會影響最早的結果，最終你還是要學會怎麼從醜陋變得自信和自強～ 接受一個事實，在某個層面上，在三維時空看起來，蝴蝶都是一樣的美，蝴蝶其實根本上長得一樣～ 
"""
# 中文分詞
xsk = jieba.cut(xsk_text)
xsk_list = [x for x in xsk]
# 執行個體化文本特征抽取
countvec = CountVectorizer()
# 填充并轉換資料
data = countvec.fit_transform(xsk_list)
# 列印抽取的特征名
print(countvec.get_feature_names())
# 将資料以類one_hot編碼方式展示
print(data.toarray())

2.特征預處理

通過特定的統計方法（數學方法）将資料轉換成算法要求的資料

2.1 歸一化

将某一列類型的資料,縮放到特定的範圍(一般為縮放到0至1之間),相當于把

滿分為100分

轉換成

滿分為1分

,原來百分制能考95分,現在隻能算作0.95分

原始資料	歸一化後
[0, 0, 10]	[0, 0, 0]
[3, 3, 13]	[0.3, 0.15, 0.3]
[5, 5, 15]	[0.5, 0.25, 0.5]
[8, 8, 18]	[0.8, 0.4, 0.8]
[10, 20, 20]	[1, 1, 1]

from sklearn.preprocessing import MinMaxScaler

# 建立執行個體
mm = MinMaxScaler()
# 原始資料
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 為執行個體填充并轉換資料
data = mm.fit_transform(lee)
# 列印轉換後的結果
print(data)

歸一化

缺點: 如果 最大值過大 或 最小值過小 異常, 就容易影響準确性

2.2标準化

通過對原始資料進行變換,把資料變換到均值為0,方差為1範圍内

rom sklearn.preprocessing import StandardScaler

# 标準化執行個體化對象
std = StandardScaler()
# 建立資料
lee = [[0, 0, 10], [3, 3, 13], [5, 5, 15], [8, 8, 18], [10, 20, 20]]
# 填充并轉換資料
data = std.fit_transform(lee)
# 列印轉換後的資料
print(data)

均值為0, 方差小于等于1

填充缺失值

import numpy as np
from sklearn.preprocessing import Imputer

# 執行個體化填補缺失值的對象
imp = Imputer(missing_values="NaN",strategy="mean", axis=0)
# 建立存在缺失值的資料
lee = [[np.nan, 8, 4],[8, 9, np.nan], [2, 8, 1]]
# 填充并轉換資料
data = imp.fit_transform(lee)
# 列印轉換結果
print(data)

填補缺失值

3. 資料降維

3.1 特征選擇: 将某些低于特定方差的特征值過濾掉(特征較少時采用)

from sklearn.feature_selection import VarianceThreshold

def var():
    """
    資料降維
    """
    
    var_thr = VarianceThreshold()

    # 第一列和第四列資料方差均為0, 會被消除
    lee = [
        [0, 2, 0, 10],
        [0, 1, 400, 10],
        [0, 1, 100, 10]]
    data = var_thr.fit_transform(lee)
    # 預設降維效果
    print("消除方差為0的特征列之後:")
    print(data)


    # 執行個體化variancethreshold,消除方差小于10的特征列
    var_thr2 = VarianceThreshold(threshold=10)
    # 填充并轉換資料
    data2 = var_thr2.fit_transform(lee)
    # 列印結果
    print("消除方差小于10的特征列之後:")
    print(data2)

if __name__ == '__main__':
    var()

過濾式降維

3.2主成分分析(PCA) `特征較多時采用`

用低次元表示高次元,例如用二維的照片表現出三維世界的立體感(盡可能損失較少的資訊)

from sklearn.decomposition import PCA

def my_pca():
    lee = [[10, 15, 20, 25],
           [11, 16, 21, 26],
           [20, 25, 30, 35]]
    # n_components為整數時,表示結果保留的特征數量, n_components為小數時,表示保留的特征資訊的百分比
    i_pca = PCA(n_components=2)

    data1 = i_pca.fit_transform(lee)
    print("保留兩個特征的結果為:")
    print(data1)

    f_pca = PCA(n_components=0.95)

    data2 = f_pca.fit_transform(lee)
    print("保留95%資訊的結果為:")
    print(data2)


if __name__ == '__main__':
    my_pca()

PCA

不敗給名詞! 了解特征工程特征工程:2.特征預處理

基本概念:

機器學習:

特征

特征值, 目标值

判定男女

樣本

特征工程:

1.特征抽取

1.1 字典特征抽取: 萬能的0和1之字典特征抽取 (one-hot編碼)

1.2 文本特征抽取: 對自然語言進行情感分析(CountVectorizer, TfidfVectorizer)

2.特征預處理

2.1 歸一化

2.2标準化

3. 資料降維

3.1 特征選擇: 将某些低于特定方差的特征值過濾掉(特征較少時采用)

3.2主成分分析(PCA) `特征較多時采用`

繼續閱讀

如果你想要學習深度學習，但是不知道從何入手，那麼《每天五分鐘深度學習》專欄一定是你不容錯過的學習資源。這個專欄包含了神經

tensorflow學習——keras進階API——序列模型Sequential

SVD原理和案例(奇異值分解)

連續兩年入圍全球Gartner ABI魔力象限，Quick BI在商業智能領域究竟有何魔力？1、互動式的分析和可視化2、建構資料故事3、釘釘內建4、增強分析Quick BI

技術解密｜阿裡雲多媒體 AI 團隊是憑借什麼拿下 CVPR2021 5冠1亞的？頂級挑戰賽戰績顯赫四大挑戰的關鍵技術探索基于視訊了解技術打造多媒體 AI 雲産品

算法專家解讀 | 開放搜尋教育搜題能力和實踐

Keras使用分批疊代（fit_generate）的方式訓練資料

圖像分割UNet系列------UNet3+（UNet3plus）詳解

圖像分割UNet系列------UNet詳解

特征：什麼是特征和特征選擇？

Pytorch(二) Tensor Tensor的建立Tensor是什麼Tensor的建立

2023了，學習深度學習架構哪個比較好？

VGGNet------超經典神經網絡結構與PyTorch實作

tensorflow學習——（imdb資料集）文本分類first_2.py

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

K-近鄰算法以及圖像分類應用

不敗給名詞! 了解特征工程特征工程:2.特征預處理

基本概念:

機器學習:

特征

特征值, 目标值

判定男女

樣本

特征工程:

1.特征抽取

1.1 字典特征抽取: 萬能的0和1之字典特征抽取 (one-hot編碼)

1.2 文本特征抽取: 對自然語言進行情感分析(CountVectorizer, TfidfVectorizer)

2.特征預處理

2.1 歸一化

2.2标準化

3. 資料降維

3.1 特征選擇: 将某些低于特定方差的特征值過濾掉(特征較少時采用)

3.2主成分分析(PCA) 特征較多時采用

繼續閱讀

3.2主成分分析(PCA) `特征較多時采用`