天天看點

三分鐘了解下機器學習

什麼是機器學習?

機器學習是一種從資料生成規則、發現模型,來幫助我們預測、判斷、分組和解決問題的技術。(機器學習是一種從資料中生産函數,而不是程式員直接編寫函數的技術)

說起函數就涉及到自變量和因變量,在機器學習中,把自變量叫做特征(feature)多個自變量分别可以定義為X1,X2..Xn,因變量叫做标簽(label),可定義為y,而一批特征和标簽的集合,就是機器學習的資料集。

機器學習的學習過程就是在已知的資料集的基礎上,通過反複的計算,選擇最準确的函數去描述資料集中自變量X1,X2....Xn 和因變量Y之間的因果關系。這個過程就稱之為機器學習的訓練也叫拟合。

這裡還需要明确幾個概念,訓練集、驗證集、測試集

訓練集,最開始用來訓練的資料集被稱為訓練集。

驗證集,驗證模型是否能夠被推廣、泛化,評估模型是否過拟合

測試集,用來評估模最終模型的泛化能力,相當于舉一反三的能力

機器學習分類

主要分類是根據機器學習在訓練過程中是否有标簽。

  • 監督學習:訓練的資料集全部都有标簽,根據标簽的特點 監督學習可以分為兩類問題:回歸和分類,回歸問題的标簽是連續的數值,比如預測房價、股市等,分類問題的标簽是離散的數值,比如人臉識别、判斷是否正确等,判斷兩款營運政策哪種更有效。
三分鐘了解下機器學習

分類算法:邏輯回歸、決策樹分類、SVM分類、貝葉斯分類、随機森林、XGBoost、KNN...

回歸算法:線性回歸、 決策樹回歸、SVN回歸、貝葉斯回歸...

  • 無監督學習:訓練資料集沒有标簽,多應用在聚類、降維等有限的場景中,比如說為使用者做分組畫像,另外通常也會作為資料預處理的一個子步驟中。

降維算法、聚類算法...

  • 半監督學習:有的資料有标簽、有的資料沒有标簽。往往是因為擷取資料标簽的難度很高,半監督學習與監督學習是很相似的,主要在與多了僞标簽生成環節,也就是給無标簽的資料人工 貼标簽。

    半監督分類、半監督回歸、半監督聚類、半監督降維

  • 強化學習:針對于一些既不能用監督學習也不能用半監督和無監督學習來解決,這時候強化學習就上場了,它針對是智能體(可以了解成一種機器學習模型)如何基于環境而做出行動反應,以獲得最大化的累積獎勵。其與監督學習的差異在于監督學習是從資料中進行學習,而強化學習是從環境給他的獎懲中學習。

    Q-learning,SARSA,深度強化網絡、蒙特卡洛學習...

三分鐘了解下機器學習

如何了解深度學習?

常說的深度學習是一種使用深層神經網絡的模型,可以應用于上述四類機器學習中,深度學習擅長處理非結構化輸入,在視覺處理和自然語言處理方面都很厲害。

深度學習,能對非結構的資料集進行自動的複雜特征提取,完全不需要人工幹預。

機器學習落地思路

做機器學習項目,首先要先明确要解決的問題,其次,再針對問題選擇一個算法,然後用對資料進行訓練,找到一族函數中最合适的那一個行程最後的模型。

繼續閱讀