天天看點

《機器學習與資料科學(基于R的統計學習方法)》——1.6 統計計算的R工程

本節書摘來異步社群《機器學習與資料科學(基于r的統計學習方法)》一書中的第1章,第1.6節,作者:【美】daniel d. gutierrez(古鐵雷斯),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

在過去的幾年裡,r統計環境在機器語言社群裡面逐漸獲得了相當突出的重要性。雖然有很多其他選擇來執行與資料分析、資料模組化和機器學習有關的任務,r成為了今天資料科學家最喜歡的工具。這歸功于r在學術界的廣泛應用,而不是像sas和spss等商業化産品。最近,r使用者社群和sas及python社群展開了激烈的辯論,焦點是對資料科學家來說,哪個是最好的工具。r有令人信服的理由,包括:免費、開源、可用性強;廣泛使用的可擴充語言;在cran中大約有7000個r包用以拓展r功能;一流的可視化功能;一個繁榮的使用者社群以及部落格集合(例如r-bloggers.com)。

這裡有一些關于r的簡短事實,來證明它的普及和成長:

r是薪酬最高的it技能(dice.com調查,2014年1月);

r是在sql之後最廣泛使用的資料科學語言(o’reilly調查,2014年1月);

70%的資料挖掘師(data miner)使用r(rexer調查,2013年10月);

r在所有的程式設計語言中排名15(redmonk程式設計語言排名,2014年1月);

r比其他任何資料科學語言都發展得快(kdnuggets調查,2013年8月);

r在谷歌搜尋先進的分析軟體中排名第一(google trends,2014年3月);

r在全世界有超過兩百萬使用者(oracle預測,2012年2月)。