天天看點

R、SQL、Python,看資料科學家最喜歡的程式設計語言

資料的爆炸增長以及公司将資料轉化為商業價值的巨大可能性,不斷增加着市場對資料科學家的需求。

但是,一個合格的資料科學家必須具備哪些技能,擁有什麼樣的教育背景呢?資料科學家在團隊中的角色是什麼?資料科學家大多使用什麼工具和程式設計語言呢?這些就是米蘭理工大學的大資料分析觀測台通過一項針對資料科學家的國際調查正在研究的部分問題。如果你的工作與資料有關,也可以支援一下這個完全匿名的調查( survey)。

除了基礎的資料科學相關的技能,程式設計是資料科學家務必要具備的五種主要能力之一,即使就專業知識而言這不是最相關的。

迄今為止世界範圍内已經有超過200位資料科學家參與了調查,然而結果顯示并沒有一種在資料科學領域占絕對優勢的程式設計語言,但是也似乎主要集中在有限幾個選項裡:幾乎96%的參與者斷言至少要用r,sql或者phython中的一種。

R、SQL、Python,看資料科學家最喜歡的程式設計語言

值得一提的是,目前的調查中排名第一的是53%的資料科學家選擇的的由r foundation for statistical computing提供支援的r語言。一開始r主要是在統計學家或學術圈内流行,但近幾年被相當多的應用于資料科學。如今r是最受歡迎的開源語言之一很多大型的網絡社群都支援它。

即使早在20世紀70年代初就得以發展,sql在當今仍然發揮着重要作用(約49%的資料科學家選擇sql,排名第二)。盡管sql不太适合處理非結構化的資料組(典型的比如大資料),但是分析組織中結構化的資料仍然很有必要,而sql就非常适合用來處理這類資料。

排名第三的python(43%)因為靈活而且相當容易上手,近幾年大受歡迎。和r語言一樣,也有很多大型社群緻力于促進python的提高并且建立一些特定的packages。

前五名中最後兩個分别是unix shell/awk/gawk(15%)和java(8%)。

本文作者:佚名

來源:51cto