天天看點

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

近日,資料科學網站KDnuggets釋出 2018年資料科學和機器學習工具調查結果。下面一起來看看調查結果

最受青睐的分析、資料科學、機器學習工具

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

圖1:2018年的最受青睐的工具及其在2016 - 2017年調查中的份額

*為了更有效的比較,KDnuggets重新計算了2016年,2017年問卷調查結果,排除了受訪者“單一”的選項。

下表是前11名的工具排行,其中每個工具至少有20%的份額:

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

表1:KDnuggets2018年頂級分析/資料科學/ ML軟體調查

在這裡,“2018%share”是指使用該工具的受訪者百分比,“ %change 2018 VS 2017”是表示2017年調查的變化 ,用綠色表示增長幅度達到10%以上,紅色表示下降幅度達到10%以上。

今年,每名受訪者的平均使用工具數量為7個,略高于2017年投票中的6.75(不包括單一工具回複)。

與2017年軟體投票相比,今年前11名中,出現了一個新面孔Keras,Keras取代了去年Knime的位置。下面是針對以上資料的一些觀察發現:

Python消滅了R

到2017年,Python已經擁有超過50%的份額,如今已經将其份額提高到66%,而在我們此次的調查中,R份額首次出現下降,而且是一下子降到50%以下。

RapidMiner激增

在過去的幾次調查中,RapidMiner一直是最大的資料科學平台之一,它的份額從2017年的33%大幅增加到50%左右。

這樣的增長速度是否是因為廠商的推廣帶來的呢?RapidMiner創始人兼總裁Ingo Mierswa的表示:

與許多供應商一樣,RapidMiner通過多種管道向使用者推廣KDnuggets問卷調查,之前我們也做過同樣的推廣,但與之前不同的是,首先今年得到了更好的回應,超過400位使用者親自回複了郵件,更重要的是,最近一年裡,RapidMiner的月活躍使用者增長了300% ,是以可以向更多的使用者發送了關于KDnuggets問卷調查的郵件。

SQL是穩定的

SQL(包括Spark SQL和SQL to Hadoop工具在内)在最近的3次調查中仍然占有約40%的份額。是以,如果你是一位有抱負的資料科學家,學習SQL吧,它可能會對你很有用!

趨勢

在調查中,使用率超過2%的新工具是Spark SQL,擁有11.7%的份額。

下表列出了2018年份額增長20%以上的工具,并在2018年達到至少3%的份額。

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

表 2:使用率增幅最大的主要分析/資料科學/機器學習工具

整合

值得一提的是,在2017年擁有2%以上份額的56個工具中,有19個(僅約三分之一)工具在2018年份額有所增加,而有37個的份額下降。結合Datawatch收購Angoss,Minitab收購Salford等近期的收購案可以表明,資料科學平台的整合即将展開。

2018年擁有3%以上份額,卻在2018年份額下降25%以上的工具見下表:

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

表 3:使用率跌幅最大的主要分析/資料科學工具

深度學習工具

使用深度學習工具的受訪者比例保持穩定,2018年有33%的受訪者表示使用深度學習工具,2017年為32%,2016年為18%。 谷歌Tensorflow依然是最主要的平台。

頂級深度學習工具排名如下:

● Tensorflow, 29.9%

● Keras, 22.2%

● PyTorch, 6.4%

● Theano, 4.9%

● Other Deep Learning Tools, 4.9%

● DeepLearning4J, 3.4%

● Microsoft Cognitive Toolkit (Prev. CNTK), 3.0%

● Apache MXnet, 1.5%

● Caffe, 1.5%

● Caffe2, 1.2%

● TFLearn, 1.1%

● Torch, 1.0%

● Lasagne, 0.3%

大資料工具:Hadoop被抛棄

2018年,約33%的開發者使用Hadoop或Spark等大資料工具 - 與2017年大緻相同,但Hadoop使用率顯著下降,下降幅度高達35%,以下是詳細資訊:

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

程式設計語言

Python似乎不僅超過了R,還包括大多數其他語言,目前Python和SQL,Java和C / C ++幾乎保持在相同水準。自從KDnuggets 進行這項調查以來,R第一次出現了下降。其他語言同樣也有所下降。

以下是按熱門度排序的主要程式設計語言:

● Python, 65.6% (was 59.0% in 2017), 11% up

● R, 48.5% (was 56.6%), 14% down

● SQL, 39.6% (was 39.2%), 1% up

● Java, 15.1% (was 15.5%), 3% down

● Unix, shell/awk/gawk, 9.2% (was 10.8%), 15% down

● Other programming and data languages, 6.9%, (was 7.6%), -9% down

● C/C++, 6.8%, (was 7.1%), 3% down

● Scala, 5.9%, (was 8.3%), 29% down

● Perl, 1.0% (was 1.9%), 46% down

● Julia, 0.7% (was 1.2%), 45% down

● Lisp, 0.3% (was 0.4%), -25% down

● Clojure, 0.2% (was 0.3%), -38% down

● F, # 0.1% (was 0.5%), -73% down

完整結果和 3 年來的趨勢

以下表格展示了調查結果的細節(此處僅列出排名前 20 的工具):

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

寫在最後

前幾天有私信我要Python的學習資料,我連夜整理了一些有深度的Python教程和參考資料,從入門到進階的都有,檔案已經打包好了,正在學習Python的同學可以免費下載下傳學習學習。檔案下載下傳方式:點選我的頭像,關注後私信回複“資料”即可下載下傳。首先把代碼撸起來!首先把代碼撸起來!首先把代碼撸起來!重要的事說三遍,哈哈。“程式設計是門手藝活”。什麼意思?得練啊。

Python完勝R語言,Hadoop被抛棄!18年資料科學和機器學習調查寫在最後

繼續閱讀