天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一0.2 大資料VS小資料

0.2 大資料vs小資料

大資料不是已經膨脹到一個電子表格無法裝下的小資料,也不是碰巧變得非常大的資料庫。然而,一些習慣于處理小資料集的專業人士認為他們的電子表格和資料庫技巧也适用于大資料資源,不需要掌握新的技巧或使用新的分析範式。從他們的角度,當資料變得越來越大時,隻需要計算機去适應(計算速度更快、資訊擷取更多、存儲容量更大等),大資料并沒有擺出一些特殊難題以緻于一台超級計算機都無法解決。

這種看待大資料的态度在資料庫管理者、程式員和統計學家中普遍存在,但這是反生産力的。長此以往,将導緻軟體緩慢甚至無效,高投入低回報,資料分析能力不佳,甚至産生無用且不可逆的大資料資源缺陷。

讓我們來看幾個一般性差異,這些可以幫助我們區分大資料和小資料。

1.目标

小資料―常用來回答某個特定問題或服務于某個特定目标。

大資料―通常在思想上圍繞一個目标而設計,但這個目标是可變的,擺出的問題也是千變萬化的。這裡有一個簡短的、虛構的大資料資助基金,其目标是把來自漁業、海岸警衛隊、商業航運、沿海管理機構的持續增長的資料收集起來,以支援下半島的各種政府和商業管理的學習研究。在這個虛構的事件中,有一個模糊的目标,但這個目标顯然沒有辦法指明大資料資源具體包含哪些内容,也無法完全解釋大資料資源中的那些多種多樣的資料以何種組織形式存在,如何與其他資料資源發生聯系以及如何利用其進行資料分析。無論是誰都不能詳述大資料的最終命運,通常來講,大資料總是給我們帶來驚喜。

2.地點

小資料―通常,小資料屬于某個機構,常常存儲在某台電腦中,有時也會存儲在某個檔案夾中。

大資料―通常通過電子空間傳輸,被配置設定到多個網絡伺服器上,存在于地球的任何地方。

3.資料結構和内容

小資料―通常包含高度結構化的資料,資料域被限制在某個單一的學科或分支學科之内。這些資料通常來自一個順序電子表格,其記錄格式是統一的。

大資料―必須有吸收非結構化資料的能力(如自由文本、圖像、視訊、音頻、實體對象等)。資料源的内容也許跨多個學科,而其中每個獨立的資料對象又有可能與其他大資料資源的資料相關聯。

4.資料準備

小資料―在很多情況下,資料使用者從其個人的目的出發準備資料。

大資料―資料來自衆多多樣化的資料源,并由很多人來準備。資料的使用者很少是該資料的準備者。

5.壽命

小資料―當資料項目結束時,小資料儲存的時間有限(很少超過研究資料的傳統學術壽命,即大概7年),然後被擦除。

大資料―大資料項目使用的資料通常需要永久儲存。理想情況下,當原始資源壽命結束時,存儲在大資料資源中的資料将被吸收到另一個資源池中。很多大資料項目累積的資料會延伸到未來和過去(例如遺留資料)。

6.測量

小資料―通常小資料使用一個實驗協定來進行測量,且該資料可由某個标準單元集描述。

大資料―衆多不同類型的資料以多種不同的電子格式傳輸着。當資料可測量時,測量結果可通過多種協定擷取。對資料管理者而言,确定大資料的品質是最困難的任務之一。

7.再現性

小資料―小資料項目通常情況下是重複的。如果有關于資料品質的問題,或對資料再現性、從資料中得到的結論的正确性有疑問,那麼整個項目可被重制,并産生新的資料集。

大資料―通常複制大資料幾乎是不可行的。在多數情況下,人們希望能夠在大資料資源中發現壞資料并進行标記等。

8.風險

小資料―小資料項目的開銷是有限的,實驗室和研究機構往往能夠從偶然的小資料失敗中恢複過來。

大資料―大資料項目會非常昂貴。一個大資料項目的失敗會導緻公司破産、機構崩塌、大規模解雇員工以及存儲在資源中的所有資料的瞬間瓦解。舉個例子,nih大資料項目,全稱為“nci cancer biomedical informatics grid”,即“癌症生物醫學資訊網格”(見術語表,grid),該項目從2004年到2010年花費了至少3.5億美元。審查資源的一個專設委員會發現盡管項目組投入了數百名癌症研究人員和資訊專家的努力,但項目基本沒有完成且資金投入巨大,最終該項目被廢止3。自那以後,這些資料資源很快被終止了4。雖然以金錢、時間和工作量來衡量該項目,其開銷無疑是巨大的,但大資料的失敗也許仍有一些可取的價值,畢竟失敗是成功之母。

9.内省

小資料―獨立的資料點由它們在資料表或資料庫中的行和列的位置識别(見術語表,data point)。如果知道行和列的表頭,那麼就可以找到和列舉其中包含的全部資料。

大資料―除非大資料資源可以如預期的那樣設計良好,否則即便是資料管理者也難以了解大資料資源的内容群組織形式(見術語表,data manager)。要擷取資料、掌握資料價值資訊和資料組織資訊,需通過内省技術才能達成(見術語表,introspection)。

10.分析

小資料―大多數情況下,項目中的所有資料可同時進行全部分析。

大資料―無論是在超級計算機中還是在多個計算機中并行進行的大資料分析幾乎都需要一步步遞增式完成(見術語表,parallel computing,mapreduce)。這些資料需經過多種方法進行提取、檢視、删減、标準化、轉換、可視化、釋義和再分析等操作。