天天看點

機器學習、資料科學、人工智能、深度學習和統計學之間的差別

機器學習、資料科學、人工智能、深度學習和統計學之間的差別是什麼?

機器學習、資料科學、人工智能、深度學習和統計學之間的差別

資料科學是個廣義的學科, Analytics data scientist(Type A)和Builder data scientist(Type B)有所不同,Type A Data Scientists在工作中遇到資料相關時可以寫出不錯的代碼,但是并不必須是專家,這類data scientist可能專業是實驗設計、預測、模組化、統計推斷或者其他統計學研究的典型部分。但是一般而言,資料科學家的工作産出可不是學術統計學有時候建議的那樣“p-values and confidence intervals”(正如有時候傳統的藥物領域統計學家會用到那樣)。在Google,Type A Data Scientists通常指統計學家、定量分析師、決策支援技術分析師或者資料科學家,可能還有其他的一些。

Type B Data Scientists是building data的。B類和A類有些相同的統計學背景,但他們還是更好的coders,可能有專業的軟體工程的訓練。他們主要對在産品中使用資料感興趣,他們建立與使用者互動的模型,通常是提供推薦的(産品、可能認識的人、廣告電影、搜尋結果之類)。

1.機器學習 vs 深度學習

NLP(Natural language processing)隻是AI要處理的語言部分,尤其是寫。

Machine learning是這樣的一種情況:給出一些可以被以離散形式描述的AI問題(比如從一系列動作中選出對的那個),然後給定一堆外部世界的資訊,在不需要程式員手動寫程式的情況下選出那個“正确的”行為。通常情況需要借助外界的一些過程來判斷這個動作對不對。在數學上,這就是函數:你給一些輸入,然後你想要他處理一下得到正确的輸出,是以整個問題就簡化為用一些自動的方式建立這種數學函數模型。和AI區分一下:如果我寫了一段特别機智的程式有着人類的行為,那這就可以是AI,但是除非它的參量都是自動從資料中學會的,否則就不是機器學習。

Deep learning是當下非常流行的機器學習的一種。它包含一種特殊的數學模型,可以想成是一種特定類型的簡單塊的組合(或者說是塊的功能的組合),這些塊可以進行調整來更好的預測最終結果。

2. Data Science VS Machine Learning

機器學習和統計學都是資料科學的一部分。Learning這個詞在machine learning裡意味着依賴于某些資料的算法,被用作一種訓練模式集來調整一些模型或者算法參數。這包含很多技術,比如回歸、樸素貝葉斯或者監督聚類。但不是所有的技術都适合這個分類。比如,非監督聚類——一種統計學和資料科學的方法——旨在不依靠任何先驗知識和訓練集監測聚類或聚類結構來幫助分類算法。需要有人來标注被發現的聚類。有些技術是混合的,比如半監督分類。有些模式偵查或者密度評估技術适合這個分類。

然而資料科學比機器學習範圍大得多。資料科學裡“data”,可能是也可能不是來自機器或者機械過程的(調查結果可能是人工采集的,臨床試驗需要一種特殊類型的small data等),而且可能和上面提到的”learning”一點關系也沒有。但是主要的不同還是因為資料科學實際上涵蓋了整個資料處理的範圍,而不隻是算法或者統計學方面。

原文釋出時間:2017-12-13 09:40

本文來自雲栖社群合作夥伴鎂客網,了解相關資訊可以關注鎂客網。

繼續閱讀