主要内容:
1.機器學習的概念,定義
!!!資料,模型
2.機器學習的應用領域
生活,工業,軍事
網站 waitbutwhy.com
書籍 《數學之美》
3.機器學習問題的分類
監督學習
分類 classification
回歸 regression
非監督學習
聚類 clustering
PCA
差別在于資料有無标記
4.機器學習解決問題的一般步驟
(1)資料采集和标記
目前這一步不需處理,學習階段一般從網上找資料集,驗證算法。
(2)資料清洗
讓資料具備結構化特征,看《利用python進行資料分析》學習pandas
(3)特征選擇
1)人眼觀察資料結構,手動分析,效率低,正确率也不高,主要靠經驗積累
2)利用:PCA等算法,降維
(4)模型選擇
根據資料集的大小,資料集有無标記,對具體的分析,直接比對各種算法的結果
(5)模型訓練和測試
訓練資料集和測試資料集
交叉驗證
(6)模型性能評估和優化
訓練時長,準确性,應用場景的性能要求
(7)模型使用
将訓練好的模型固化,不需要每次都訓練模型。每次訓練模型耗時,且每次模型參數會有變化,固化較好的模型,多次使用。