天天看點

《大資料分析原理與實踐》——第1章 緒論 1.1 什麼是大資料

“大資料”的概念起源于2008年9月《自然》(Nature)雜志刊登的名為“Big Data”的專題。2011年《科學》(Science)雜志也推出專刊“Dealing with Data”對大資料的計算問題進行讨論。谷歌、雅虎、亞馬遜等著名企業在此基礎上,總結了他們利用積累的海量資料為使用者提供更加人性化服務的方法,進一步完善了“大資料”的概念。

根據維基百科的定義,大資料是指無法在可承受的時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合。

在維克托·邁爾–舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中,大資料指的是不用随機分析法(抽樣調查)這樣的捷徑,而采用所有資料進行分析處理。

“大資料”研究機構Gartner将“大資料”定義為需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資産。

一般來說,大資料泛指巨量的資料集。當今社會,網際網路尤其是移動網際網路的發展,顯著地加快了資訊化向社會經濟以及大衆生活等各方面的滲透,促使了大資料時代的到來。近年來,人們能明顯地感受到大資料來勢迅猛。據有關資料顯示,1998年,全球網民平均每月使用流量是1 MB,2003年是100 MB,而2014年是10 GB;全網流量累計達到1EB(即10億GB)的時間在2001年是一年,在2004年是一個月,而在2013年僅需要一天,即一天産生的資訊量可刻滿1.88億張DVDCD光牒。事實上,我國網民數居世界首位,産生的資料量也位于世界前列,這其中包括淘寶網站每天超數千萬次的交易所産生的超50 TB的資料,包括百度搜尋每天生成的幾十PB的資料,也包括城市裡大大小小的攝像頭每月産生的幾十PB的資料,甚至還包括醫院裡CT影像抑或門診所記錄的資訊。總之,大到學校、醫院、銀行、企業的系統行業資訊,小到個人的一次百度搜尋、一次地鐵刷卡,大資料存在于各行各業,存在于群眾生活的邊邊角角。

另一方面,大資料因自身可挖掘的高價值而受到重視。國家的寬帶化戰略的實施,雲計算服務的起步、物聯網的廣泛應用和移動網際網路崛起的同時,資料處理能力也迅速發展,資料積累到一定程度,其資料屬性将更加明晰,顯示出開發的價值。同時,社會的節奏越來越快,要求快速反應和精細管理,急需借助對資料的分析和科學的決策,這樣,我們便需要對上面所說的形形色色的海量資料進行開發。也就是說,大資料的時代來了。

有學者稱,大資料将引發生活、工作和思維的革命;《華爾街日報》将大資料稱為引領未來繁榮的三大技術變革之一;麥肯錫公司的報告指出,資料是一種生産資料,大資料将是下一個創新、競争、生産力提高的前沿;世界經濟論壇的報告認為大資料是新财富,價值堪比石油;等等。是以,大資料的開發利用将成為各個國家搶占的新的制高點。

大資料是相對于一般資料而言的,目前對大資料尚缺乏權威的嚴格定義,通常大家用“4V”來反映大資料的特征:

1)Volume(規模性):大資料之“大”,展現在資料的存儲和計算均需要耗費海量規模的資源上。規模大是大資料最重要的标志之一,事實上,資料隻要有足夠的規模就可以稱為大資料。資料的規模越大,通常對資料挖掘所得到的事物演變規律越可信,資料的分析結果也越具有代表性。例如,美國宇航局收集和處理的氣候觀察、模拟資料達到32 PB;而FICO的信用卡欺詐檢測系統要監測全世界超過18億個活躍信用卡賬戶。不過,現在也有學者認為,社會對大資料的關注,更多地應引導到對資料資源獲得與利用的重視上來,因為對于某些中小資料的挖掘也有價值,目前報道的一些大資料挖掘的應用例子,不少隻是TB級的規模。

2)Velocity(高速性):大資料的另一特點在于資料增長速度快,急需及時處理。例如,大型強子對撞機實驗裝置中包含15億個傳感器,平均每秒鐘收集超過4億的實驗資料;同樣在一秒鐘裡,有超過3萬次使用者查詢送出到谷歌,3萬微網誌被使用者撰寫。而人們對資料處理的速度的要求也日益嚴格,力圖跟上社會的節奏,有報道稱,美國中情局就要求利用大資料将分析搜集資料的時間由63天縮短為27分鐘。

3)Variety(多樣性):在大資料背景下,資料在來源和形式上的多樣性愈加突出。除以結構化形式存在的關系資料,網絡上也存在大量的位置、圖檔、音頻、視訊等非結構化資訊。其中,視訊等非結構化資料占很大比例,有資料表明,到2016年,全部網際網路流量中,視訊資料将達到55%,那麼,有理由相信,大資料中90%都将是非結構化資料。并且,大資料不僅僅在形式上表現出多元化,其資訊來源也表現出多樣性,大緻可将其分為網絡資料、企事業機關資料、政府資料、媒體資料等幾種。

4)Value(高價值性):大資料價值總量大,但價值稀疏,即知識密度低。大資料以其高價值吸引了全世界的關注,據全球著名咨詢公司麥肯錫報告:“如果能夠有效地利用大資料來提高效率和品質,預計美國醫療行業每年通過資料獲得的潛在價值可超過3000億美元,能夠使得美國醫療衛生支出降低8%。”然而,大資料的知識密度非常低,IBM副總裁CTO Dietrich表示:“可以利用Twitter資料獲得使用者對某個産品的評價,但是往往上百萬條記錄中隻有很小的一部分真正讨論這款産品。”并且,雖然資料規模與資料挖掘得到的價值之間有相關性,但是兩者難以用線性關系表達。這取決于資料的價值密度,同一事件的不同資料集即便有相同的規模(例如對同一觀察對象收集的長時間稀疏資料和短時間密集資料),其價值也可以相差很多,因為資料集“含金量”不同,大資料中多數資料是重複的,忽略其中一些資料并不影響對其挖掘的結果。

注意,大資料之是以難處理不僅在于規模大,更大的挑戰是其随時間的變化快和類型的多樣性,随時間和類型的變化增加了大資料的複雜性,同時也豐富了大資料的内涵。對大資料僅僅冠以“大”這一形容詞是不全面的,隻不過在大資料“4V”中,規模相對于變化和類型這兩個特征量來說容易定量。而且即便是單一類型的資料集,隻要有足夠的規模也能稱得上是大資料。當然,資料的規模越大,通常對資料挖掘所得到的事物演變規律越可信,資料分析的結果也越有代表性。是以對大資料這一詞彙突出“規模大”這一特征是可以了解的。

另外,大資料除了需要有足夠規模的資料,還有可能涉及一定的時間或空間跨度,即要具有普遍性。例如,每分鐘将一個人的身體資料記錄下來以了解其身體狀況,是有效的,如果将頻率改為每秒鐘,資料規模有所增加,但其價值并無提升。顯然,資料樣本密度與被觀察對象有關,如風力發電機的很多傳感器每毫秒就要檢測一次,以檢查葉片等的磨損程度。

繼續閱讀