天天看點

機器學習:基本算法分類體系結構和文章彙總機器學習機器學習定義機器學習算法分類機器學習的開發流程轉換器與預估器知識結構文章彙總

機器學習

Machine Learning

特征工程

TensorFlow

神經網絡

圖像識别

自然語言處理

機器學習定義

從資料中自動分析獲得規律(模型),并利用規律對未知資料進行預測

算法是核心,資料和計算是基礎

掌握算法思想,使用庫或架構解決問題

資料類型

離散型資料 計數資料,資料都是整數,不能再細分

連續型資料 某個範圍内取任意一數,非整數

機器學習算法分類

監督學習 特征值 + 目标值
    -分類 目标值離散型資料
        -k-近鄰算法
        -貝葉斯分類
        -決策樹與随機森林
        -邏輯回歸
        -神經網絡
    -回歸 目标值連續型資料
        -線性回歸
        -嶺回歸
    -标注
        -隐馬爾科夫模型(不要求)

無監督學習 特征值
    聚類 K-means      

分類是監督學習的一個核心問題,最基礎的是二分類問題

機器學習的開發流程

1、根據原始資料明确問題種類

2、資料基本處理,pd(缺失值,合并表)

3、特征工程

4、找到合适的算法進行預測(分類,回歸),參數調優

模型:算法 + 資料

5、 模型評估,判斷效果

6、上線使用,以api形式提供

特征工程3大知識點

-特征抽取

-特征預處理

-特征降維

轉換器與預估器

轉換器transformer

fit_transform() 輸入資料直接轉換

fit() 輸入資料,但不做事情,會用這個資料計算平均值等資料

transform() 進行資料轉換

fit_transform = fit + transform

估計器estimator

sklearn機器學習算法實作

分類估計器
    -sklearn.neighbors k-近鄰算法
    -sklearn.naive_bayes 貝葉斯
    -sklearn.linear_model.LogisticRegression 邏輯回歸
    -sklearn.tree 決策樹與随機森林
回歸估計器
    -sklearn.linear_model.LinearRegression 線性回歸
    -sklearn.linear_model.Ridge 嶺回歸      

基本使用流程

fit(X_train, y_train)

y_predict = predict(X_test)

score(X_test, y_test)

API

sklearn.metrics.classification_report

知識結構

資料集劃分
    -訓練集和測試集 
    -train_test_split
轉換器和估計器
    -轉換器
        -執行個體化
        -fit_transform
        -fit
        -transform
    -估計器
        -實作了一類算法的API
        -流程
            -fit訓練資料
            -predict預測測試集的結果
            -score得出準确率
分類算法
    -目标值是離散型
    -K-近鄰
        -距離公式
        -優點
            -了解簡單,易于實作
        -缺點
            -K值取值
            -性能問題,不太合适用在大量的資料集
        -超參數
        -資料的處理:标準化(必須)
    -樸素貝葉斯
        -條件獨立,才能叫樸素貝葉斯
        -機率公式 條件機率和聯合機率
        -貝葉斯公式
        -優點
            -主要在文本分類上應用
            -準确率比較高
            -理論基礎:機率
        -缺點
            -條件獨立
            -曆史資料的準确性影響較大
        -資料處理:文本的特征抽取
    -決策樹
        -資訊論
            -資訊熵
            -資訊增益
            -資訊熵的大小變化是和不确定性相關
        -分類依據
            -資訊增益(掌握)
            -資訊增益比
            -基尼系數(scikitlearn預設)
        -優點
            -準确率高
            -适用于各種資料
            -可解釋性
        -缺點
            -容易過拟合,樹的建立太深
    -随機森林
        -一種內建學習方法,多個同樣的分類器組成
        -多個決策樹組成
        -建立過程
        -優點
            -準确率高
            -不會過拟合
            -對大資料集适用
        -超參數,樹的深度,多少棵樹
分類算法的評估
    -準确率
    -精确率和召回率
        -混淆矩陣
        -每個類别都會有
    -模型調參數
        -交叉驗證 為了讓資料都能夠進行驗證和訓練
            -訓練資料(訓練+驗證)
            -K折交叉驗證
        -網格搜尋 
            -每個參數都會檢視效果,選出效果好的參數
            -參數的組合(1, 2)
      

文章彙總

機器學習:特征工程字典特征和文本特征抽取

https://blog.csdn.net/mouday/article/details/86325387

機器學習:資料特征預處理歸一化和标準化

https://blog.csdn.net/mouday/article/details/86378595

機器學習:資料特征預處理缺失值處理

https://blog.csdn.net/mouday/article/details/86430553

機器學習:資料降維特征選擇和主成分分析PCA

https://blog.csdn.net/mouday/article/details/86437866

機器學習:sklearn資料集簡介

https://blog.csdn.net/mouday/article/details/86441782

機器學習:K-近鄰算法對鸢尾花資料進行分類預測

https://blog.csdn.net/mouday/article/details/86501149

機器學習:樸素貝葉斯算法對新聞分類

https://blog.csdn.net/mouday/article/details/86516935

機器學習:分類模型的評估精确率Presicion和召回率Recall

https://blog.csdn.net/mouday/article/details/86562391

機器學習:模型選擇與調優交叉驗證和網格搜尋

https://blog.csdn.net/mouday/article/details/86562457

機器學習:資訊熵決策樹預測泰坦尼克資料

https://blog.csdn.net/mouday/article/details/86565057

機器學習:随機森林預測泰坦尼克資料

https://blog.csdn.net/mouday/article/details/86567939

機器學習:線性回歸基礎知識

https://blog.csdn.net/mouday/article/details/86619285

機器學習:欠拟合過拟合嶺回歸預測波士頓房價

https://blog.csdn.net/mouday/article/details/86652862

機器學習:sklearn訓練結果的儲存和加載

https://blog.csdn.net/mouday/article/details/86652953

機器學習:邏輯回歸預測癌症資料

https://blog.csdn.net/mouday/article/details/86653227

機器學習: k-means聚類對資料進行預分類

https://blog.csdn.net/mouday/article/details/86662154

繼續閱讀