機器學習

Machine Learning

特征工程

TensorFlow

神經網絡

圖像識别

自然語言處理

機器學習定義

從資料中自動分析獲得規律（模型），并利用規律對未知資料進行預測

算法是核心，資料和計算是基礎

掌握算法思想，使用庫或架構解決問題

資料類型

離散型資料計數資料，資料都是整數，不能再細分

連續型資料某個範圍内取任意一數，非整數

機器學習算法分類

監督學習 特征值 + 目标值
    -分類 目标值離散型資料
        -k-近鄰算法
        -貝葉斯分類
        -決策樹與随機森林
        -邏輯回歸
        -神經網絡
    -回歸 目标值連續型資料
        -線性回歸
        -嶺回歸
    -标注
        -隐馬爾科夫模型（不要求）

無監督學習 特征值
    聚類 K-means

分類是監督學習的一個核心問題，最基礎的是二分類問題

機器學習的開發流程

1、根據原始資料明确問題種類

2、資料基本處理，pd（缺失值，合并表）

3、特征工程

4、找到合适的算法進行預測（分類，回歸），參數調優

模型：算法 + 資料

5、模型評估，判斷效果

6、上線使用，以api形式提供

特征工程3大知識點

-特征抽取

-特征預處理

-特征降維

轉換器與預估器

轉換器transformer

fit_transform() 輸入資料直接轉換

fit() 輸入資料，但不做事情，會用這個資料計算平均值等資料

transform() 進行資料轉換

fit_transform = fit + transform

估計器estimator

sklearn機器學習算法實作

分類估計器
    -sklearn.neighbors k-近鄰算法
    -sklearn.naive_bayes 貝葉斯
    -sklearn.linear_model.LogisticRegression 邏輯回歸
    -sklearn.tree 決策樹與随機森林
回歸估計器
    -sklearn.linear_model.LinearRegression 線性回歸
    -sklearn.linear_model.Ridge 嶺回歸

基本使用流程

fit(X_train, y_train)

y_predict = predict(X_test)

score(X_test, y_test)

API

sklearn.metrics.classification_report

知識結構

資料集劃分
    -訓練集和測試集 
    -train_test_split
轉換器和估計器
    -轉換器
        -執行個體化
        -fit_transform
        -fit
        -transform
    -估計器
        -實作了一類算法的API
        -流程
            -fit訓練資料
            -predict預測測試集的結果
            -score得出準确率
分類算法
    -目标值是離散型
    -K-近鄰
        -距離公式
        -優點
            -了解簡單，易于實作
        -缺點
            -K值取值
            -性能問題，不太合适用在大量的資料集
        -超參數
        -資料的處理：标準化（必須）
    -樸素貝葉斯
        -條件獨立，才能叫樸素貝葉斯
        -機率公式 條件機率和聯合機率
        -貝葉斯公式
        -優點
            -主要在文本分類上應用
            -準确率比較高
            -理論基礎：機率
        -缺點
            -條件獨立
            -曆史資料的準确性影響較大
        -資料處理：文本的特征抽取
    -決策樹
        -資訊論
            -資訊熵
            -資訊增益
            -資訊熵的大小變化是和不确定性相關
        -分類依據
            -資訊增益（掌握）
            -資訊增益比
            -基尼系數（scikitlearn預設）
        -優點
            -準确率高
            -适用于各種資料
            -可解釋性
        -缺點
            -容易過拟合，樹的建立太深
    -随機森林
        -一種內建學習方法，多個同樣的分類器組成
        -多個決策樹組成
        -建立過程
        -優點
            -準确率高
            -不會過拟合
            -對大資料集适用
        -超參數，樹的深度，多少棵樹
分類算法的評估
    -準确率
    -精确率和召回率
        -混淆矩陣
        -每個類别都會有
    -模型調參數
        -交叉驗證 為了讓資料都能夠進行驗證和訓練
            -訓練資料（訓練+驗證）
            -K折交叉驗證
        -網格搜尋 
            -每個參數都會檢視效果，選出效果好的參數
            -參數的組合(1, 2)