三分鐘了解下機器學習

2021-11-24 23:50:00

什麼是機器學習？

機器學習是一種從資料生成規則、發現模型，來幫助我們預測、判斷、分組和解決問題的技術。(機器學習是一種從資料中生産函數，而不是程式員直接編寫函數的技術)

說起函數就涉及到自變量和因變量，在機器學習中，把自變量叫做特征（feature）多個自變量分别可以定義為X1，X2..Xn，因變量叫做标簽（label），可定義為y，而一批特征和标簽的集合，就是機器學習的資料集。

機器學習的學習過程就是在已知的資料集的基礎上，通過反複的計算，選擇最準确的函數去描述資料集中自變量X1，X2....Xn 和因變量Y之間的因果關系。這個過程就稱之為機器學習的訓練也叫拟合。

這裡還需要明确幾個概念，訓練集、驗證集、測試集

訓練集，最開始用來訓練的資料集被稱為訓練集。

驗證集，驗證模型是否能夠被推廣、泛化，評估模型是否過拟合

測試集，用來評估模最終模型的泛化能力，相當于舉一反三的能力

主要分類是根據機器學習在訓練過程中是否有标簽。

監督學習：訓練的資料集全部都有标簽，根據标簽的特點監督學習可以分為兩類問題：回歸和分類，回歸問題的标簽是連續的數值，比如預測房價、股市等，分類問題的标簽是離散的數值，比如人臉識别、判斷是否正确等，判斷兩款營運政策哪種更有效。

分類算法：邏輯回歸、決策樹分類、SVM分類、貝葉斯分類、随機森林、XGBoost、KNN...

回歸算法：線性回歸、決策樹回歸、SVN回歸、貝葉斯回歸...

降維算法、聚類算法...

半監督學習：有的資料有标簽、有的資料沒有标簽。往往是因為擷取資料标簽的難度很高，半監督學習與監督學習是很相似的，主要在與多了僞标簽生成環節，也就是給無标簽的資料人工貼标簽。

半監督分類、半監督回歸、半監督聚類、半監督降維
強化學習：針對于一些既不能用監督學習也不能用半監督和無監督學習來解決，這時候強化學習就上場了，它針對是智能體（可以了解成一種機器學習模型）如何基于環境而做出行動反應，以獲得最大化的累積獎勵。其與監督學習的差異在于監督學習是從資料中進行學習，而強化學習是從環境給他的獎懲中學習。

Q-learning,SARSA,深度強化網絡、蒙特卡洛學習...

常說的深度學習是一種使用深層神經網絡的模型，可以應用于上述四類機器學習中，深度學習擅長處理非結構化輸入，在視覺處理和自然語言處理方面都很厲害。

深度學習，能對非結構的資料集進行自動的複雜特征提取，完全不需要人工幹預。

做機器學習項目，首先要先明确要解決的問題，其次，再針對問題選擇一個算法，然後用對資料進行訓練，找到一族函數中最合适的那一個行程最後的模型。