天天看點

《大資料管理概論》一1.2 大資料的演變過程

從資料庫(database,db)到大資料(big data,bd),看似隻是一個簡單的技術演進,但細細考究不難發現兩者有着本質上的差别。大資料的出現必将颠覆傳統的資料管理方式,在資料來源、資料處理方式和資料思維等方面都會帶來革命性變化。

如果要用簡單的方式來比較傳統的資料庫和大資料的差別的話,我們認為“池塘捕魚”和“大海捕魚”是一個很好的類比。“池塘捕魚”代表着傳統資料庫時代的資料管理方式,而“大海捕魚”則對應着大資料時代的資料管理方式,“魚”是待處理的資料。“捕魚”環境條件的變化導緻了“捕魚”方式的根本性差異。這些差異主要展現在如下幾個方面:

1)資料規模:“池塘”和“大海”最明顯的差別就是規模。“池塘”規模相對較小,即便是先前認為比較大的“池塘”,譬如vldb(very large database),與“大海”xldb(extremely large database)相比仍舊偏小。

“池塘”的處理對象通常以mb為基本機關,而“大海”則常常以gb甚至是tb、pb為基本處理機關。

2)資料類型:過去的“池塘”中,資料的種類單一,往往僅僅有一種或少數幾種,這些資料又以結構化資料為主。而在“大海”中,資料的種類繁多,數以千計,而這些資料又包含着結構化、半結構化以及非結構化的資料,并且半結構化和非結構化資料所占份額越來越大。

3)模式(schema)和資料的關系:傳統的資料庫都是先有模式,然後才會産生資料。這就好比是先選好合适的“池塘”,然後才會向其中投放适合在該“池塘”環境生長的“魚”。而大資料時代在很多情況下難以預先确定模式,模式隻有在資料出現之後才能确定,且模式随着資料量的增長處于不斷的演變之中。這就好比先有少量的魚類,随着時間推移,魚的種類和數量都在不斷地增長。魚的變化會使大海的成分和環境處于不斷的變化之中。

4)處理對象:在“池塘”中捕魚,“魚”僅僅是其捕撈對象。而在“大海”中,“魚”除了是捕撈對象之外,還可以通過某些“魚”的存在來判斷其他種類的“魚”是否存在。也就是說傳統資料庫中資料僅作為處理對象,而在大資料時代,要将資料作為一種資源來輔助解決其他諸多領域的問題。

5)處理工具:捕撈“池塘”中的“魚”,一種漁網或少數幾種基本就可以應對,也就是所謂的“one size fits all”。但是在“大海”中,不存在一種漁網能夠捕獲所有魚類的情況,也就是所謂的“no size fits all”。

從“池塘”到“大海”,不僅僅是規模的變大。傳統的資料庫代表着資料工程(data engineering)的處理方式,大資料時代的資料已不僅僅是工程處理的對象,需要采取新的資料思維來應對。圖靈獎獲得者、著名資料庫專家jim gray博士觀察并總結指出,人類自古以來,在科學研究上先後曆經了實驗、理論和計算三種範式。當資料量不斷增長和累積到今天,這三種傳統範式在科學研究,特别是一些新的研究領域已經無法很好地發揮作用,需要有一種全新的範式來指導新形勢下的科學研究。基于這種考慮,jim gray提出了一種新的資料探索型研究方式,他稱之為科學研究的“第四種範式”(the fourth paradigm)[2]。

四種範式的比較如表1-1所示。第四種範式的實質就是從以計算為中心,轉變到以資料處理為中心,也就是我們所說的資料思維。這種方式需要我們從根本上轉變思維。正如前面提到的捕魚方式的轉變,在大資料時代,資料不再僅僅是捕撈的對象,而應當轉變成一種基礎資源,來協同解決其他諸多領域的問題。例如,計算社會科學(computational social science)基于特定社會需求,在特定的社會理論指導下,收集、整理和分析資料足迹(data print),以便進行社會解釋、監控、預測與規劃的過程和活動。計算社會科學是一種典型的需要采用第四種範式來做指導的科學研究領域。duncan j. watts在《nature》雜志上的文章“a twenty-f?irst century science”也指出借助于社交網絡和計算機分析技術,21世紀的社會科學有可能實作定量化的研究,進而成為一門真正的自然科學。

表1-1 科學研究上發現的四種範式

科學範式 出現時間 主要方法

實驗 數千年前 通過觀察來描述自然現象

理論 近百年 建立模型、概論

計算 近幾十年 對複雜現象利用計算機進行仿真模拟

資料探索

(data exploration) 目前 儀器或仿真器産生資料,計算機軟體将這些資料進行處理,而後存儲于不同地方,最後要将這些資料高效地彙集、整理、統計、分析、共享和歸檔,并加以再利用