美國大資料産業地圖和資料科學家必備工具-資料源

資料專家不能隻生活在r語言或excel表格裡。他們需要工具來獲得品質拔尖且可用于預測分析的資料。其實我覺得這正是統計學家和資料專家的差別所在。在我看來，統計學家

使用資料進行回歸分析。而資料專家

需要切實擷取資料、進行回歸分析、溝通結果、展示模式，并超越所在機構當時的局限，立足于制高點帶領大家尋求切實可行的突破發展。鑒于他們需要統籌整個資料通道，我希望這個資料生态系統可以羅列出資料專家門常用的重要工具和使用方法，以及工具之間的互動聯系。

　　第一部分：資料源

資料是整個資料生态系統的源頭。總的來說，資料源可分為資料庫、應用和第三方資料三類。

1，資料庫

結構化資料庫早于非結構化資料庫出現。結構化資料庫每年有約250億美元的市場，你可以在資料生态系統圖裡看到衆所周知的oracle，和一些新創公司譬如memsql等。結構化資料庫儲存有限的資料列，一般由結構化查詢語言(sql)運作，用于資料可靠完善至關重要的領域，比如說财政和營運。

對結構化資料庫有一個重要假設，那就是查詢資料時必須能得到一緻且完善的結果。想一想誰絕對需要這樣一種結構化資料庫?對了，就是你的銀行。它們存儲賬戶資訊、個人姓名、借款等等，必須随時分毫不差地知道你賬戶中的金額。

而另外一種則是非結構化資料庫。情理之中，非結構化資料庫是由資料專家們開拓的，因為資料專家眼中的資料與賬戶并不相同。資料專家不太在意查詢結果絕對一緻，他們更關注資料的靈活性。是以，非結構化資料在許多方面降低了對資料存儲和查詢的要求。

很多非結構化資料庫是谷歌獲得成功的直接産物。谷歌嘗試把網際網路存儲在資料庫中，其野心和工程之龐大可想而知。mapreduce是一種用于這種資料庫的技術，雖然它一定程度上沒有結構化查詢語言

(sql)那麼強大，但是使用者可以依據需要來調整和擴充它們的資料

。mapreduce的資料使用甚至已經超出了谷歌的初始預期。比如現在谷歌可以在所有網站間查詢，并根據網站之間的互相連結來調整搜尋結果。這種可量化的靈活查詢使谷歌獲得了巨大的競争優勢，是以雅虎和其他公司以巨額投資來開發這種技術的開源版本，名叫hadoop。

此外，非結構化資料庫通常所需的儲存空間通常更小。在過去資料存儲十分昂貴，是以幾年前，一些主要的網際網路公司不得不每隔幾個月就清空一次資料庫。現在這種情況已難以想象了。從強大的推薦引擎，到世界級的翻譯系統，到令人難以置信的存貨管理，都建立于這些資料之上。

非結構化資料庫一般來說沒有結構化資料庫那麼精确，但對于許多應用(尤其是資料科學界)，這個折衷是值得的。舉例來說，

比如你的非結構化資料庫在100個機器上運作，但是其中有一個當機了。這時你僅用99台機器(而非100台)來決定向使用者推薦觀看一部特定的電影，也完全可行。這種類型的資料庫看重靈活性，量化以及速度，哪怕不能随時保證完全精确。

還有一個更有名的例子。一個軟體公司建立了一個基于hadoop的非結構化資料庫軟體cloudera。來看看它有多大的成長空間吧：7年前，我接到風投的電話，他們預期cloudera在全球有10到15家公司的市場，去年cloudera已獲得了将近10億美元的融資。

随着資料專家取代财務和會計，成為最主要的資料消費者，資料庫将會越來越走進每一個人的生活。

2，商業應用

十年前，沒有人想過能把重要的商業資料存在雲端，如見這卻早已成為了現實。這也許是商業的it基礎結構的最大轉變之處。我在資料庫生态系統中列出了四種主要的商業應用，分别是銷售、營銷、産品和消費者，每一種功能都有多種saas應用可供選擇。

salesforce

應該是首先掀起這股趨勢的并最先獲得成功的。他們把軟體開發的目标人群是終端使用者(銷售團隊)，而非單個的首席技術官。這對他們的使用者十分有用，在此過程中，大家也能看到公司客戶能夠信任地把重要公司資料放在雲端。

銷售資料不再存在于使用者自己安裝的内部資料庫，而是被放在雲端，由緻力于保證資料可用且穩定的雲端公司提供服務。

其他公司也紛紛效仿這種做法。如今基本上每個商業部門都有一個對應的資料應用。

marketo存儲營銷資料，

mailchimp存儲電子郵件，

optimizely存儲a/b測試資料，

zendesk存儲顧客滿意度，諸如此類。

為什麼這是相關的呢?如今每個商業部門都有強大的資料庫，由資料專家分析并用于預測分析。資料量很大，卻零散地分布在多個應用之中。比如說你在sugarcrm

中檢視某個消費者的資訊，但是當你想知道這名顧客的服務記錄時，需要去zendesk中檢視。而如果你想要知道他是否支付了最近的賬單，則要去查xero。所有的資料都被存放在不同的地點，網站和資料庫中。

商業資料被轉移到了雲端，可以存放更多的資料了，但是這些資料被零散地存放在全世界的不同伺服器的不同應用裡。

3，第三方資料

第三方資料出現得比結構化和非結構化資料庫都早得多。dun & bradstreet從1841年就開始賣資料了。随着資料對每個機構都愈發重要，這個領域也将會獲得長足的發展。在資料庫生态系統圖中，我大體把第三方資料分成四個領域，分别是

商業資訊資料，

社交媒體資料，

網頁爬蟲和

公開資料。

3.1，商業資訊資料

商業資訊資料開始最早。我上面提到了dun & broadstreet，商業資料購買對許多商業機構來說都至關重要。商業資料能回答所有b2b公司至關重要的問題：我們的銷售團隊該找誰談?如今，這些資料更被擴充應用至網上地圖和高頻交易等領域。

新創的資料賣方如factual，不僅售賣商業資料，更傾向于從這些高盈利的新型領域起步。

3.2，社交媒體資料

社交媒體資料雖然是新興産物，但發展很快。

通過智能pr公司對社交媒體中的文本作情感分析，營銷人員能夠切實地了解到品牌熱度與影響力，并有效評估品牌價值。

你可以從radian6 和datsift裡看到全部細節。

3.3，網絡爬蟲

接下來我們來看看網絡爬蟲，我個人認為這是一個很有發展潛力的領域。如果能夠把所有網站都作為資料源，由資料科學團隊發展和分析，真不知道還有多少新型商業和技術會由此而生。如今從事網絡爬蟲的重要公司包括

import.io和kimono，我認為這個領域将在接下來幾年呈現爆炸式的增長。

3.4，公衆資料

最後，當然還要提及公衆資料。如果沒有資料專家團隊的支援，不知道奧巴馬總統是否還能夠赢得2004年的大選，這可能也是後來奧巴馬大力推動 data.gov 的原因。許多地方政府也緊随其後。

亞馬遜網絡服務存放了許多驚人的公衆資料，囊括從衛星圖像到安然公司的郵件等各個方面。這些龐大的資料系列可以幫助擴大新型商業，訓練更智能的算法，并解決許多實際問題。

這個領域發展快速，甚至出現了 enigma.io 這種專門幫助企業使用公衆資料的公司。

3.5，開源工具

開源資料儲存的種類激增，尤其是在非結構化資料的存儲方面， cassandra ,redistribute , riak ， spark ,

couchdb 和 mongodb 等都大受歡迎。它們多數專注于公司應用，另外也着重于資料工程的生态系統。通過這個互動式地圖

你将可以一睹最受歡迎的開源資料存儲及開采工具的概貌。

本文轉自d1net（轉載）

美國大資料産業地圖和資料科學家必備工具-資料源

繼續閱讀

淺談企業活動中進行資料分析的重要性

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark