一言以蔽之,機器學習就是人類定義一定的計算機算法,讓計算機根據輸入的樣本和一些人類的幹預來總結并歸納其特征與特點,并用這些特征和特點與一定的學習目标形成映射關系,進而自動化地做出相應反應的過程。這個反應可能是做出相應的标記或判斷,也可能是輸出一段内容——圖檔、程式代碼、文本、聲音,而機器自己學到的内容我們可以描述為一個函數、一段程式、一組政策等相對複雜的關系描述。
在我看來,機器學習是大資料的一個子範疇。因為凡是基于對客觀事物的量化認知的科學都是資料科學的範疇,也就是廣義的大資料的範疇。機器學習作為其中一個用來自動歸納和總結資料關系的總的方法論當然算其中的一個子範疇,這點沒有什麼疑問。
而就機器學習作為研究對象來說,也有傳統的機器學習和深度學習兩個粗略的分類方式,我們在這裡還是要提一下。它們有個比較大的差別,那就是傳統的機器學習通常是需要人提前先來做特征提取,把提取過的特征向量化後再丢給模型去訓練,這裡人要做相當的前置工作。而深度學習通常可以采用End-to-End的學習方式,輸入的内容隻需要做很少的一些歸一化(normalization)、白化(whitening)等處理就可以丢給模型去訓練,通常不需要人來做特征提取的工作。而這個特征提取的動作可以由整個深度學習的網絡模型幫我們自動完成,這就給很多傳統機器學習中很難處理的問題帶來了新的轉機。