天天看點

《大資料管理概論》一第1章概  述1.1 大資料的基本概念

已故的圖靈獎得主jim gray在其《事務處理》一書中提到:6000年以前,蘇美爾人(sumerians)就使用了資料記錄的方法,已知最早的資料是寫在土塊上,上面記錄着皇家稅收、土地、谷物、牲畜、奴隸和黃金等情況。随着社會的進步和生産力的提高,類似土塊的處理系統演變了數千年,經曆了殷墟甲骨文、古埃及紙莎草紙、羊皮紙等。19世紀後期打孔卡片出現,用于1890年美國人口普查,用卡片取代土塊,使得系統可以每秒查找或更新一個“土塊”(卡片)。可見,用資料記錄社會由來已久,而資料的多少和系統的能力是與當時社會結構的複雜程度和生産力水準密切相關的。

随着人類進入21世紀,尤其是網際網路和移動網際網路技術的發展,使得人與人之間的聯系日益密切,社會結構日趨複雜,生産力水準得到極大提升,人類創造性活力得到充分釋放,與之相應的資料規模和處理系統發生了巨大改變,進而催生了當下衆人熱議的大資料局面。

從曆史觀的角度看,資料(d)和社會(s)形成了一定的對應關系,即:d1~f (ssumerians),…,dbig~f (spresent),…,dn~f (sfuture)。從量的關系上,d1,…,dbig,…,dn可能存在大小關系,還可形成包含關系,但它們隻是與當時的社會發展狀況相對應:dbig不可能反映代表未來的dn,因為我們不知道未來會有什麼新的社會結構(諸如當下社交網絡一類的事物)出現,也不知道會有什麼新的生産活動(諸如電商一類的事物)産生;同樣d1也不需要具有dbig的規模,因為當時人們并沒有如此頻繁的聯系。近期,美國加州大學伯克利分校michael i. jordan教授提出“大資料的冬天即将到來”,如果我們能曆史地認識dbig的地位,沒有把dbig當dn,就不存在“冬天”與“春天”的問題。這是曆史客觀發展的事實。

基于以上分析,當下大資料的産生主要與人類社會生活網絡結構的複雜化、生産活動的數字化、科學研究的資訊化相關,其意義和價值在于可幫助人們解釋複雜的社會行為和結構,以及提高生産力,進而豐富人們發現自然規律的手段。本質上,大資料具有以下三方面的内涵,即大資料的“深度”、大資料的“廣度”以及大資料的“密度”。所謂“深度”是指單一領域資料彙聚的規模,可以進一步了解為資料内容的“次元”;“廣度”則是指多領域資料彙聚的規模,側重展現在資料的關聯、交叉和融合等方面;“密度”是指時空維上資料彙聚的規模,即資料積累的“厚度”以及資料産生的“速度”。

面對不斷湧現的大資料應用,資料庫乃至資料管理技術面臨新的挑戰。傳統的資料庫技術側重考慮資料的“深度”問題,主要解決資料的組織、存儲、查詢和簡單分析等問題。其後,資料管理技術在一定程度上考慮了資料的“廣度”和“密度”問題,主要解決資料的內建、流處理、圖結構等問題。這裡提出的大資料管理是要綜合考慮資料的“廣度”“深度”“密度”等問題,主要解決資料的擷取、抽取、內建、複雜分析、解釋等技術難點。是以,與傳統資料管理技術相比,大資料管理技術難度更高,處理資料的“戰線”更長。

繼續閱讀