機器學習
Machine Learning
特征工程
TensorFlow神經網絡
圖像識别
自然語言處理
機器學習定義
從資料中自動分析獲得規律(模型),并利用規律對未知資料進行預測
算法是核心,資料和計算是基礎
掌握算法思想,使用庫或架構解決問題
資料類型
離散型資料 計數資料,資料都是整數,不能再細分
連續型資料 某個範圍内取任意一數,非整數
機器學習算法分類
監督學習 特征值 + 目标值
-分類 目标值離散型資料
-k-近鄰算法
-貝葉斯分類
-決策樹與随機森林
-邏輯回歸
-神經網絡
-回歸 目标值連續型資料
-線性回歸
-嶺回歸
-标注
-隐馬爾科夫模型(不要求)
無監督學習 特征值
聚類 K-means
分類是監督學習的一個核心問題,最基礎的是二分類問題
機器學習的開發流程
1、根據原始資料明确問題種類
2、資料基本處理,pd(缺失值,合并表)
3、特征工程
4、找到合适的算法進行預測(分類,回歸),參數調優
模型:算法 + 資料
5、 模型評估,判斷效果
6、上線使用,以api形式提供
特征工程3大知識點
-特征抽取
-特征預處理
-特征降維
轉換器與預估器
轉換器transformer
fit_transform() 輸入資料直接轉換
fit() 輸入資料,但不做事情,會用這個資料計算平均值等資料
transform() 進行資料轉換
fit_transform = fit + transform
估計器estimator
sklearn機器學習算法實作
分類估計器
-sklearn.neighbors k-近鄰算法
-sklearn.naive_bayes 貝葉斯
-sklearn.linear_model.LogisticRegression 邏輯回歸
-sklearn.tree 決策樹與随機森林
回歸估計器
-sklearn.linear_model.LinearRegression 線性回歸
-sklearn.linear_model.Ridge 嶺回歸
基本使用流程
fit(X_train, y_train)
y_predict = predict(X_test)
score(X_test, y_test)
API
sklearn.metrics.classification_report
知識結構
資料集劃分
-訓練集和測試集
-train_test_split
轉換器和估計器
-轉換器
-執行個體化
-fit_transform
-fit
-transform
-估計器
-實作了一類算法的API
-流程
-fit訓練資料
-predict預測測試集的結果
-score得出準确率
分類算法
-目标值是離散型
-K-近鄰
-距離公式
-優點
-了解簡單,易于實作
-缺點
-K值取值
-性能問題,不太合适用在大量的資料集
-超參數
-資料的處理:标準化(必須)
-樸素貝葉斯
-條件獨立,才能叫樸素貝葉斯
-機率公式 條件機率和聯合機率
-貝葉斯公式
-優點
-主要在文本分類上應用
-準确率比較高
-理論基礎:機率
-缺點
-條件獨立
-曆史資料的準确性影響較大
-資料處理:文本的特征抽取
-決策樹
-資訊論
-資訊熵
-資訊增益
-資訊熵的大小變化是和不确定性相關
-分類依據
-資訊增益(掌握)
-資訊增益比
-基尼系數(scikitlearn預設)
-優點
-準确率高
-适用于各種資料
-可解釋性
-缺點
-容易過拟合,樹的建立太深
-随機森林
-一種內建學習方法,多個同樣的分類器組成
-多個決策樹組成
-建立過程
-優點
-準确率高
-不會過拟合
-對大資料集适用
-超參數,樹的深度,多少棵樹
分類算法的評估
-準确率
-精确率和召回率
-混淆矩陣
-每個類别都會有
-模型調參數
-交叉驗證 為了讓資料都能夠進行驗證和訓練
-訓練資料(訓練+驗證)
-K折交叉驗證
-網格搜尋
-每個參數都會檢視效果,選出效果好的參數
-參數的組合(1, 2)
文章彙總
機器學習:特征工程字典特征和文本特征抽取
https://blog.csdn.net/mouday/article/details/86325387機器學習:資料特征預處理歸一化和标準化
https://blog.csdn.net/mouday/article/details/86378595機器學習:資料特征預處理缺失值處理
https://blog.csdn.net/mouday/article/details/86430553機器學習:資料降維特征選擇和主成分分析PCA
https://blog.csdn.net/mouday/article/details/86437866機器學習:sklearn資料集簡介
https://blog.csdn.net/mouday/article/details/86441782機器學習:K-近鄰算法對鸢尾花資料進行分類預測
https://blog.csdn.net/mouday/article/details/86501149機器學習:樸素貝葉斯算法對新聞分類
https://blog.csdn.net/mouday/article/details/86516935機器學習:分類模型的評估精确率Presicion和召回率Recall
https://blog.csdn.net/mouday/article/details/86562391機器學習:模型選擇與調優交叉驗證和網格搜尋
https://blog.csdn.net/mouday/article/details/86562457機器學習:資訊熵決策樹預測泰坦尼克資料
https://blog.csdn.net/mouday/article/details/86565057機器學習:随機森林預測泰坦尼克資料
https://blog.csdn.net/mouday/article/details/86567939機器學習:線性回歸基礎知識
https://blog.csdn.net/mouday/article/details/86619285機器學習:欠拟合過拟合嶺回歸預測波士頓房價
https://blog.csdn.net/mouday/article/details/86652862機器學習:sklearn訓練結果的儲存和加載
https://blog.csdn.net/mouday/article/details/86652953機器學習:邏輯回歸預測癌症資料
https://blog.csdn.net/mouday/article/details/86653227機器學習: k-means聚類對資料進行預分類
https://blog.csdn.net/mouday/article/details/86662154