天天看點

【深解讀】什麼是資料科學?如何把資料變成産品?

【深解讀】什麼是資料科學?如何把資料變成産品?

未來屬于那些知道如何把資料變成産品的企業和個人。

    --麥克.羅克德斯(mike loukides)

據哈爾•瓦裡安(hal varian)說,統計學家是下一個性感的工作。五年前,在《什麼是web 2.0》裡蒂姆•奧萊利(tim o’reilly)說“資料是下一個intel inside”。但是這句話到底是什麼意思?為什麼我們突然間開始關注統計學和資料?

在這篇文章裡,我會檢視資料科學的各個方面,技術、企業和獨特技能集合。

網際網路上充斥着“資料驅動的應用”。幾乎任何的電子商務應用都是資料驅動的應用。這裡面前端的頁面靠背後的資料庫來支援,它們兩者之間靠中間件來連接配接其他的資料庫和資料服務(信用卡公司、銀行等等)。但是僅僅使用資料并不是我們所說的真正的“資料科學”。一個資料應用從資料裡擷取價值,同時創造更多的資料作為産出。它不隻是帶有資料的一個應用,它就是一個資料産品。而資料科學則是能建立這樣的資料産品。

網際網路上早期的資料産品之一就是cddb資料庫。cddb資料庫的開發者意識到基于cd(音頻CD光牒)裡面的每首歌曲的确切長度,任何cd都有一個唯一的數字簽名。gracenote公司建立了一個資料庫,記錄着歌曲的長度,并和專輯的中繼資料(歌曲名稱、歌手和專輯名稱)資料庫關聯。如果你曾經使用itunes來找cd,你就是在使用這個資料庫服務。itunes會先擷取每首歌的長度,然後發給cddb,進而得到歌曲的名稱。如果你有一些cd(比如你自制的cd)在資料庫裡沒有記錄,你也可以在cddb裡創造一個無名專輯的題目。盡管看起來很簡單,但這是革命性的。cddb把音樂看成是資料,而不僅僅是聲音,并從中創造了新的價值。他們的商業模式和傳統的銷售音樂、共享音樂或者分析音樂口味等業務的模式截然不同,盡管這些業務也可以是“資料産品”。cddb完全是視音樂的問題為資料的問題。

谷歌是創造資料産品的專家,這裡列幾個例子。

谷歌的創新是在于其意識到搜尋引擎可以使用傳入連結接而不是網頁上的文字。谷歌的pagerank算法是最早一批使用網頁以外的資料的算法之一,特别是網頁的傳入連結接數,即其他網頁指向某網頁的數量。記錄連結讓谷歌的搜尋引擎比其他的引擎更好,而pagerank則是谷歌的成功因素中非常關鍵的一條。

拼寫檢查不是一個非常難的任務,但是通過在使用者輸入搜尋關鍵詞時,向錯誤拼寫推薦正确的用法并檢視使用者是如何回應推薦,谷歌讓拼寫檢查的準确率大幅提高。他們還建立起了常見錯誤拼寫的字典,其中還包括對應的正确拼寫以及錯誤拼寫常見的上下文。

語音識别也是一個非常艱難的任務,而且也還沒有完全被解決。但谷歌通過使用自己收集的語音資料,已經開始了針對這個難題的一個宏大的嘗試。并已把語音搜尋內建到了核心搜尋引擎裡。

在2009年豬流感的傳播期,谷歌能夠通過跟蹤與流感相關的搜尋來跟蹤這次豬流感的爆發和傳播過程。

【深解讀】什麼是資料科學?如何把資料變成産品?

通過分析搜尋跟流感相關的使用者在不同地區的情況,谷歌能夠比美國國家疾病控制中心提前兩周發現豬流感的爆發和傳播趨勢。

谷歌并不是唯一一家知道如何使用資料的公司。臉書和領英都是用朋友關系來建議使用者他們可能認識或應該認識的其他人。亞馬遜會儲存你的搜素關鍵詞,并使用别人的搜尋詞來關聯你的搜尋,進而能令人驚訝地做出恰當的商品推薦。這些推薦就是資料産品,能幫助推進亞馬遜的傳統的零售業務。所有這些都是因為亞馬遜明白書不僅僅是書,而相機也不僅僅是相機,使用者也不僅僅就是一個使用者。使用者會産生一連串“資料排氣”,挖據它并使用它,那麼相機就變成了一堆資料可以用來和使用者的行為進行關聯。每次使用者通路他們的網站就會留下資料。

把所有這些應用聯系到一起的紐帶就是從使用者那裡采集的資料來提供附加價值。無論這個資料是搜尋關鍵詞、語音樣本或者産品評價,現在使用者已經成為他們所使用的産品的回報環中重要的一環。這就是資料科學的開端。

在過去的幾年裡,可用的資料量呈爆炸性的增長。不管是網頁日志資料、推特流、線上交易資料、“公民科學”、傳感器資料、政府資料或其他什麼資料,現在找到資料已經不再是問題,如何使用這些資料才是關鍵。不僅僅是企業在使用它自己的資料或者使用者貢獻的資料。越來越常見的是把來自多個資料源的資料進行“聚合”。《在r裡進行資料聚合》分析了費城郡的房屋抵押贖回權的情況。它從郡長辦公室獲得了房屋抵押贖回權的公開記錄,抽取了其中的位址資訊,再使用雅虎把位址資訊轉換成了經緯度。然後使用這些地理位置資訊把房屋抵押贖回權的情況繪制在地圖上(另外一個資料源)。再把它們按社群、房屋估值、社群個人所得和其他社會—-經濟因素進行分組。

現在每個企業、創業公司、非營利組織或項目網站,當他們想吸引某個社群的時候所面臨的問題是,如何有效的使用資料。不僅僅是他們自己的資料,還包括所有可用的和相關的資料。有效的使用資料需要與傳統的統計不同的技能。傳統的穿職業西裝的精算師們進行着神秘但其實是早已明确定義的分析。而資料科學與統計的不同是資料科學是一種全盤考慮的方法。我們越來越多的在非正規的管道裡找到資料,資料科學正随着資料的不斷收集、把資料轉換為可處理的形式、讓資料自己講故事以及把故事展現給别人不斷演進。

為了能感受到什麼樣的技術是資料科學需要的,讓我們首先看看資料的生命周期:資料從哪裡來,如何使用,以及資料到哪裡去。

◆ ◆ ◆

資料從哪裡來

資料無處不在,政府、網站、商業夥伴、甚至你自己的身體。雖然我們不是完全淹沒在資料的海洋裡,但可以看到幾乎所有的東西都可以(甚至已經)被測量了。在o’reilly傳媒公司,我們經常會把來自nielsen bookscan的行業資料和我們自己的銷售資料、公開的亞馬遜資料、甚至就業資料組合起來研究出版行業發生了什麼。一些網站,比如infochimps和factual,可以提供很多大型資料集的連接配接,包括天氣資料、myspace的活動流資料、體育活動比賽記錄等。factual網站還招募使用者來更新和改進它的資料集。這些資料集覆寫了從内分泌學家到徒步小道等的廣泛内容。

很多我們現在所用的資料都是web 2.0的産物,也遵守摩爾定律。web讓人們花更多的時間線上,同時也留下了他們的浏覽軌迹。移動端應用則留下了更豐富的資料軌迹,因為很多應用都被标注了地理位置資訊或附帶着音頻和視訊。這些資料都可以被挖據。結帳點裝置和經常購物者購物卡使得擷取消費者的所有交易資訊(不光是線上資訊)成為可能。如果我們不能存儲這些資料,那麼所有這些資料就将沒有用處。這裡就是摩爾定律起作用的地方。自80年代早期開始,處理器的速度就從10mhz增加到了3.6ghz,增加了360倍(這還沒考慮處理位數和核數的增加)。但是我們看到存儲能力的增加則更為巨大。記憶體價格從1000美元每兆位元組降到25美元每吉位元組,幾乎是40000倍的降低。這還沒考慮記憶體尺寸的減少和速途的增加。日立公司在1982年制造了第一個吉位元組的硬碟,重大概250磅。現在千吉位元組級别的硬碟已經是普通消費品,而32吉位元組的微存儲卡隻有半克重。無論是每克重的比特數、每美元比特數或者總存儲量,存儲能力的提升已經超過了cpu速度的增幅。

摩爾定律應用于資料的重要性不僅是極客的技巧。資料的增長總是能填充滿你的存儲。硬碟容量越大,也就能找到更多的資料把它填滿。浏覽網頁後留下的“資料排氣”、在臉書上添加某人為朋友或是在本地超市買東西,這些資料都被仔細的收集下來并進行分析。資料存儲的增加就要求有更精緻的分析來使用這些資料。這就是資料科學的基石。

那麼,我們怎麼能讓資料有用?任何資料分析項目的第一步都是“資料調節”,即把資料變換成有用的狀态。我們已經看到了很多資料的格式都是易用的:atom資料釋出、網絡服務業務、微格式和其他的新技術使得資料可以直接被機器消費。但是老式的“螢幕抓取”方法并沒有消亡,而且也不會消亡。很多“非正規”資料源來的資料都是很混亂的。他們都不是很好建構的xml檔案(并帶有所有的中繼資料)。在《在r裡做資料聚合》裡使用的房屋抵押贖回權資料都是釋出在費城郡長辦公司的網站上。這些資料都是html檔案,很可能是從某個資料表格檔案裡自動生成的。如果曾經見過這些由excel生産的html檔案,你就知道處理這個會是很有趣的。

資料調節也包括用類似beautiful soup這樣的工具來清理混亂的html檔案,用自然語言處理技術來分析英語和其他語言的純文字,或用人工來幹苦活和髒活。你有可能會處理一系列資料源,而他們各自的格式都不同。如果能有一個标準的工具集來處理這些就太好了,可實際上這是不現實的。為了做資料調節,你需要準備好處理任何的資料格式,并願意使用任何的工具,從原始的unix工具(如awk)到xml語義分析器和機器學習庫。腳本語言,比如perl和python,就很重要了。

一旦你分析了資料,就可以開始思考資料的品質問題了。資料經常會有缺失和不一緻。如果資料缺失了,你是要簡單地忽略他們嗎?這也不總是可以的。如果出現資料不一緻,你是否要決定某些表現不好的資料(是裝置出錯了)是錯的,或者這些不一緻的資料恰恰是在講述它自己的故事,而這就更有趣。有報道說,臭氧層消耗的發現被延誤了,因為自動資料收集工具丢棄了那些數值過低的讀數1。在資料科學裡,你能有的經常是你将會拿到的。通常你不可能得到更好的資料,你可能沒有其他的選擇除了使用你手頭有的資料。

如果研究的問題涉及到人類的語言,那了解資料就又給問題增加了一個次元。o’reilly的資料分析組的主管羅傑.馬古拉斯(roger magoulas)最近在為蘋果公司招聘公告清單搜尋資料庫,這需要有地理位置技能。這聽起來像是個簡單任務,這裡的坑就是從很多招聘公告清單裡去發現真正的“蘋果”的工作,而不是那些大量增加的蘋果附屬的工業企業。為了能更好的完成這個任務,就需要能了解一個招聘公告的文法結構,即你需要能解析英語語義。這樣的問題已經變的越來越常見。比如你試着去用谷歌趨勢(google trend)去檢視cassandra資料庫或者python語言正在發生什麼,你就能感受到這個問題了。因為谷歌已經為很多關于大型蛇類的網站建立了索引。歧義消除從來都不是一個簡單的任務,但是類似于natural language toolkit這樣的庫可以讓這個工作簡單一點。

當自然語言處理失效時,你可以用人的智能來代替人工智能。這就是類似亞馬遜的mechanical turk這樣的業務所服務的目标。如果你能把你的任務分解成非常多的容易表述子任務,你就可以使用mechanical turk的市場來招募很便宜的勞工。例如,你想檢視招聘公告清單并發現哪些是真正來自蘋果公司,你可以招募勞工來做分類,價格大概是一美分一個公告。如果你已經把這個清單的數目降到一萬條有蘋果字樣的公告,那麼隻要付100美元就可以讓人工來分類了。

處理海量的資料

我們已經聽說了很多的“大資料”,但是“大”隻是轉移注意力的話。石油公司、電信公司和其他資料密集型的行業早就已經在相當長的時間裡擁有了海量的資料集。伴随着存儲能力的持續增長,今天的“大資料”肯定會變成明天的“中資料”或者日後的“小資料”。我所聽到的最有意義的定義是:“大資料”是指資料的量本身成為問題的一部分。我們讨論資料量的問題可從吉位元組級到千吉位元組不等,在某些時刻,傳統的資料處理技術已經不能勝任了。

面對這樣不同的資料,我們正試圖做什麼?根據傑夫.哈默巴赫爾(jeff hammebacher)2所說,我們正在建構資訊平台或資料空間。資訊平台和傳統的資料倉庫類似,但不同。他們暴露了很豐富的api(應用程式接口),并被設計為用來支援探索和分析了解這些資料,而不是隻為傳統的分析和報表。這些平台接收所有的資料格式,包括最混亂的那些,他們的資料模式随着對資料了解的改變而不斷進化。

大部分建構資料平台的企業都發現很有必要超越傳統的關系型資料庫。傳統的關系型資料庫系統在到一定資料量級後開始效率降低,甚至無效。管理在一群資料庫伺服器間分享和複制資料是很困難的,且很慢。同時關系型資料庫需要預先定義好資料模式,而這與多資料源的非結構化資料現狀是沖突的,因為你甚至都不知道什麼是最重要的直到你開始分析資料。關系型資料庫被設計來滿足一緻性的,這是為了支援複雜的交易過程,以便于當交易過程中的任何一個環節出錯時,可以很友善的復原。盡管嚴格一緻性對于很多應用是很重要的,但這對于我們這裡所談論的分析任務并不是完全必須的。你真的會在乎是有1010個或者1012個推特的關注者?精确是很誘人的,但是對于絕大部分金融領域以外的資料驅動的應用,精确是個僞命題。大部分資料分析都是比較性的,如果你想知道是否東歐地區的銷售增長比南歐地區快,你并不關心這個差别是5.92%年增長,還是5.93%。

為了能有效地存儲資料,出現了不少新型的資料庫。他們經常被叫做nosql資料庫,或非關系型(non-relational)資料庫,盡管兩個名詞都沒什麼用。這些名詞把本質上完全不同的産品歸到一類裡,但其實隻說明了他們不是什麼。很多的這些資料庫都是谷歌的bigtable和亞馬遜的dynamo的後代。它們被設計來實作分布于多節點,并提供“最終一緻性”而不是絕對一緻性,同時也支援非常靈活的資料模式。盡管有多達二十個這樣的資料庫産品,大部分都是開源的,隻有少數幾個已經在業界确立了他們的地位。

cassandra:由臉書開發,已經在推特、rackspace、reddit和其他大型網站的生産系統上使用。cassandra被設計成高性能、高可靠性和可自動複制。它有一個非常靈活的資料模型。創業公司riptano提供對它的商業化支援。

hbase:是基于谷歌的bigtable,并變成apache hadoop的一個子項目。設計用于極大的資料庫(超過十億行、百萬列),分布式存儲于上千個節點。它跟hadoop一起,可由cloudera公司提供商業化的支援。

存儲資料隻是建構資料平台的一部分,資料的價值隻有在被使用後才能出現,而巨大的資料量又帶來了新的計算難題。谷歌讓mapreduce方法變得流行。mapreduce方法本質上是一種分而治之的政策,用以處理在一個超大的叢集上的超級大的問題。在“map”階段,一個單一的計算任務被分成了衆多的相同的子任務,然後這些子任務被配置設定到很多的處理節點上運作。子任務産生的中間結果随後被彙聚,交給reduce任務們來處理。事後看,mapreduce任務似乎是對于谷歌的最大的問題(建立大的搜尋引擎)的一個顯而易見的解決方案。很容易把一個搜尋分布到上千個節點裡,然後在把結果彙聚成一個單一的答案。沒有那麼顯而易見的是mapreduce已被證明對于很多大型資料的問題都可用,不管是搜尋還是機器學習。

最流行的mapreduce的開源實作是hadoop項目。雅虎宣傳他們已經建構了世界上最大的生産hadoop叢集,有一萬個cpu核心,運作在linux上。很多hadoop開發者也認可了cloudera的商業版hadoop。亞馬遜的elastic mapreduce是在亞馬遜的ec2叢集上提供了預先配置好的hadoop鏡像檔案,這讓部署hadoop非常簡單,也不用客戶自己購買linux伺服器。客戶可以按需增加和減少處理器,而隻需按使用時間來付費。

hadoop已經遠遠超越了單純的mapreduce的實作,他是一個資料平台的核心部件。它包括了hdfs,一個保證高性能和可靠性需求的超大資料分布式檔案系統;hbase資料庫;hive,一個可以讓開發者使用類sql的查詢來探索hadoop資料的工具;一個叫pig的進階資料流語言;以及其他很多的部件。如果有任何的東西可以叫一站式資訊平台,hadoop就是一個。

hadoop被設計成了可以支援“靈活”資料分析。在軟體開發領域,“靈活實踐”是與快速産品開發周期、開發者和使用者的更緊密的互動、并與測試相關的。傳統的資料分析已經被異常長的運作時間所耽擱,一個計算可能在幾小時或者幾天内都無法完成。但是hadoop(特别是elastic mapreduce)讓建構一個可以處理超大資料集的叢集成為可能。快速的計算使得測試不同的假設、不同的資料集和不同的算法成為可能。這就讓跟客戶的溝通變的容易了,因為可以快速的發現你是否問了正确的問題。同時也讓探索那些有趣的可能性成為可能,而不再受限于分析時間了。

hadoop本質上是一個批處理系統,但是hadoop線上原型(hop,hadoop online prototype)是一個實驗項目,來應對流計算。hop在資料到來的時候就處理資料,并以準實時的速度算出中間結果。準實時資料分析可以應用在推特的話題趨勢追蹤這樣的應用裡。這樣的應用隻要求近似實時,比如話題趨勢追蹤的報表不會需要毫米級的準确度。像推特上的關注者的數目一樣,一個“話題趨勢”報表也隻需要能在五分鐘内更新即可,甚至是一小時内。據bit.ly的資料科學家希拉裡.梅森(hillary mason)所說,也可以先計算很多的變量值,再使用實時mapreduce來計算最近的結果。

機器學習是資料科學家的另外一種重要的工具。我們現在期待網絡和移動應用會結合推薦引擎。而建構一個推薦引擎是人工智能問題的精華之一。不用看很多的網頁應用,你就能發現分類、錯誤檢測、圖像比對(如在谷歌眼鏡和snaptell裡)甚至是人臉識别。一個不動腦子的移動應用可以讓你用手機來給某人拍照,然後在用這張照片來在搜尋這個人的身份。吳恩達(andrew ng)的機器學習課程是斯坦福大學的最流行的計算機課程之一,有着數百名學生(他的這個視訊也是強烈推薦的)。

有很多機器學習的庫可供使用:python的pybrain,elefant,java的weka和hadoop裡的mahout。谷歌最近剛剛釋出他們的預測性分析的api,通過restful接口為大衆提供了谷歌的機器學習算法的能力。對于計算機視覺,opencv則是事實上的标準。

mechanical turk也是工具庫裡的一個重要部分。機器學習幾乎總是需要一個“訓練集”,即已知結果的資料,供開發和調優應用。turk就是一個很好的方法來獲得訓練集。一旦你得到了資料集(可能就是從推特裡收集的很多公共圖檔),你可以用很少的花費來進行人工分類,比如分到不同的清單裡,在臉上或者車上畫個圈,或者任何你感興趣的結果。花費幾分錢來分類幾千條記錄是個不錯的選擇。即使是相對大的工作,也隻花費不到幾百美元。

盡管我沒有強調傳統的統計分析,但建構統計模型在任何資料分析裡都很重要。據麥克.德裡斯科爾(mike driscoll),統計是“資料科學的文法”。讓資料能一緻性的講故事是很重要的。我們都聽說了這個笑話,吃泡菜會死人,因為每個死的人都吃過泡菜。如果你了解關聯的意思,你就不會去理會這個笑話。更進一步,很容易可以看到為《r技術手冊》做廣告使得這本書的銷量的轉化率比其他書多2%。但需要用統計的結果來判斷這個差别是不是夠顯著,或隻是一個随機的波動。資料科學不僅僅隻是關于資料的儲存,或猜測資料可能的意義,它是關于假定檢驗和確定來自資料的結論是可信的和可靠的。從傳統的商業智能到了解谷歌的拍賣機制,統計在幾乎所有的任務裡都扮演重要的角色。統計已經成為了一個基本技能。它不是被來自機器學習裡的新技術所替代,它是他們的補充。

盡管有很多的商業化統計軟體包,但開源的r語言,包括他的豐富的包庫cran,是非常重要的一個工具。雖然對學計算機的人而言,r是一種奇怪的詭異的語言,但它幾乎是提供了一站式的統計工具包。它包括了非常好的圖形處理工具,cran裡包括了非常多的資料解析器,以及針對分布式計算的新的擴充包。如果有一個工具能提供端到端的統計解決方案,r就是。

讓資料來講它自己的故事

一圖或許值千言,或許不值,但一圖絕對值千數。很多資料分析算法的問題都是他們僅僅隻是産生了一堆數字。為了了解這些數字的意思(它們要說的真實故事),你需要制作好的圖表。愛德華.塔夫特(edward tufte)的《量化資訊的可視化顯示》就是資料可視化的經典書籍,也是任何希望從事資料科學的人要看的基礎教材。據馬丁.瓦滕伯格(martin wattenberg,flowing media的創始人),可視化對資料調節很重要,如果你想發現資料的品質如何,那就把它畫出來。可視化也經常是是資料分析的第一步。希拉裡.梅森說當她拿到新的資料後,她會首先畫很多的散點圖,試圖去找到那些有趣的東西。一旦你發現某些資料有價值的線索,就可以繼續用更詳細的分析來繼續了。

有很多軟體和工具可以用來制作圖表展現資料。gnuplot是非常有效的一個。r也有很豐富的圖表庫;凱西.瑞斯和本.弗萊的processing是最先進的一個,特别是如果你想制作可随時間變化的動畫。ibm的many eyes裡的很多可視化都是完全可以互動的應用。

内森.姚(nathan yau)的flowingdata部落格是一個很好的地方可以來學習制作可視化。我最喜歡的動畫之一是沃爾瑪的成長。它裡面不僅僅是可視化自己的美學,還有藝術的部分,可以幫助了解資料。它看起來像是身體裡的癌症在擴散嗎?或是流感在人群裡的爆發傳播?讓資料來說它自己的故事不僅僅是展現結果,它還包括制作連接配接,連到其他的資料源來證明這些結果。一個成功的零售連鎖店的發展和一個傳染病的發展類似嗎?如果是這樣,這是不是給了我們一個新的洞察,了解經濟是如何發展的?這個問題我們幾年前甚至都不能問。因為沒有足夠的計算能力,而資料則各自被鎖定在各自的環境裡,同時能處理這些資料的工具也不成熟。現在類似這樣的問題每天都被問出來。

資料科學家

資料科學要求很多技能,從傳統的計算機科學、數學到藝術。傑夫.哈默巴赫爾在描述他在臉書組建的資料科學團隊(可能也是面向消費者的網站裡的第一個資料科學團隊)時說:

在某一天,團隊的成員可以在python裡寫出多個階段的資料處理管道,設計一個假設檢驗的測試,用r來對資料樣本所回歸分析,為一些資料密集型的産品和服務在hadoop上設計和實作一種算法。或是就我們分析的結果和其他的成員或部門進行溝通。

哪裡去找到這些多才多藝的人哪?按領英的首席科學家dj.帕蒂爾(dj patil)的說法,最好的資料科學家應該是“理科科學家”,特别是實體學家,而不是計算機專業的人員。實體學家一般有很好的數學背景、計算機技能,同時實體學也是一個非常依賴從資料裡獲得發現的學科。他們必須思考大畫面,大問題。如果你花費了很多的科學基金來擷取資料,即使資料沒有想要的那麼清晰,你也不會随意丢棄。你必須要想辦法來讓資料講故事。當資料講的故事不是你所想要它講的時候,你就需要一些創造性。

科學家也需要知道如何把大問題分解成一些小一點的問題。帕蒂爾描述了在領英建立一些推薦特性的過程。這種任務可能很容易變成一個高光的開發項目,花費幾千個人天的開發時間加上幾千小時的計算時間來發現領英成員的互相間的關聯關系。但是帕蒂爾他們的工作過程卻很不一樣。他們從一個相對小的項目開始,簡單地程式設計來檢視成員的畫像并做相應的推薦。問諸如你上過康奈爾大學嗎這樣的問題,就可以幫助推薦是否成員需要加入康奈爾校友會。然後就可以逐漸地擴充出去。除了檢視使用者的畫像,領英的資料科學家開始檢視會員參加過的活動,随後是他們參加的圖書館的讀書俱樂部。結果就産生了一個能分析海量資料的有價值的資料産品,但它最初也不是按這個思路設計的。這是一個靈活地、靈活地過程,逐漸地實作最終的目标,而不是一開始就直接去爬高山。

這就是帕蒂爾所說的“資料柔道”的核心思想。即用一些附帶的小問題來解決那些看起來無法解決的大的困難的難題。cddb就是一個資料柔道的很好的例子,直接分析歌曲音軌來識别音樂是非常難的(盡管不是不可能,例如midomi)。但cddb的員工創造性地用更好追蹤的方法解決了這個問題。基于音軌的長度來計算一個音軌的簽名,然後在資料庫裡搜尋這個簽名,非常簡單直接!

【深解讀】什麼是資料科學?如何把資料變成産品?

并不容易來發現資料科學工作的名額。但是來自o'reilly研究的資料顯示了一個穩定hadoop和cassandra招聘公告的逐年增長。這可以算是對“資料科學”總體市場的一個好的表征。本圖顯示了cassandra招聘數量的增長和排列cassandra職位的公司的數量。

創業精神是整個問題的另外重要一塊。帕蒂爾對問題“當你準備招聘一個資料科學家的時候,什麼樣的人你會找?”時的第一反應是“那些你想跟着一起創業的人”。這是一個重要的洞察:我們進入了一個建構于資料上的産品的時代。我們還不知道這些産品是什麼,但是我們知道勝出者會是那些能發現這些産品的企業和個人。希拉裡.梅森也給出了同樣的結論。她作為bit.ly的資料科學家的主要工作就是研究bit.ly所産生的資料,并從中發現如何建構有趣的産品。在尚不成熟的資料行業,沒有人試圖去制造2012的尼桑stanza或者office 2015,相反的,這個行業的從業者都在盡力去發現新産品。除了是實體學家、數學家、程式員和藝術家,他們還是創業者。

資料科學家把創業精神和耐心、願意逐漸地制造資料産品的意願、探索的能力和能就一個解決方案進行反複疊代的能力結合起來。他們是天生的交叉學科。他們能從所有方面來探索問題,從最初的資料收集、資料調節到得出結論。他們能創造性的找到新的方法來解決問題,同時去回答一個非常寬泛定義的問題:“這裡有很多很多的資料,你能從中找到什麼?”

未來屬于那些能知道如何成功收集和使用資料的企業。谷歌、亞馬遜、臉書和領英都已經在利用他們的資料流并形成了他們的核心業務,且獲得了成功。他們是先鋒,但更新的企業(像bit.ly)正在追随着他們的腳步。無論是挖掘你個人的生物群落,還是從幾百萬旅遊者分享的經驗裡繪制地圖,或者研究人們分享給别人的url,新一代的生意将會是依靠資料來成功。哈爾.瓦裡安的采訪裡有一段可能沒人能記住的引用:

這個能拿到資料的能力—能了解資料、處理資料、從中抽取價值、可視化資料并能和别人交流結果—将會是下一個十年裡極度重要的技能。

麥克.羅克德斯是o'reilly傳媒負責内容政策的副總裁。他編輯了很多非windows程式設計的廣受好評的技術書籍。特别是,他對程式設計語言、unix和其上的應用、系統和網絡管理感興趣。麥克是《系統性能調優》和《unix上的強大工具》的作者之一。近年來,它關注于資料和資料分析領域、分析語言(如r)、數學、octave以及思考如何讓書籍更加的社交化。

原文釋出時間為:2016-05-12

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号