天天看點

大資料教程系列之大資料概念

  大資料教程系列之大資料概念,随着大資料時代的到來,“大資料”已經成為網際網路資訊技術行業的流行詞彙。關于什麼是大資料這個問題,大家比較認可大資料的“4V”說法。大資料的四個V,即說的是大資料的四個特征,分别是資料量大(Volume)、資料類型繁多(Variety)、處理速度快(Velocity)、價值密度低(Value)。

  1、資料量大(Volume)

  如果把印刷在紙上的文字和圖形也看成資料的話,那麼人類曆史上第一次資料爆炸發生在造紙術和印刷術發明的時期。而從1986年開始到2010年的二十多年間,全球産生的資料增長了100倍。

  随着時間,資料産生的速度更快,我們正生活在一個“資料爆炸”的時代。

  今天,世界上30%的設定是聯網的,而在不遠的将來,将有更多的使用者成為網民,汽車,電視,家用電器,生産機器等各種裝置也将全面接入網際網路。随着物聯網的推廣和普及,各種傳感器和攝像頭将遍布我們工作和生活的各個角落,這些裝置每時每刻都在自動産生大量資料。

  根據著名咨詢機構IDC(Internet Data Center)做出的估測,人類社會産生的資料一直都在以每年50%的速度增長,也就是說,每兩年就增加一倍,這被稱為“大資料摩爾定律”。

  這意味着,人類在最近兩年産生的資料量相當于之前産生的全部資料量之和。預計到2020年,全球将總共擁有35ZB的資料量,與2010年相比,資料量将增長到近30倍。

  機關 換算關系

  Byte(位元組) 1Byte=8bit

  KB(Kilobyte 千位元組) 1KB=1024Byte

  MB(MegaByte,兆位元組) 1MB=1024KB

  GB(Gigabyte,吉位元組) 1GB=1024MB

  TB(Trillionbyte,太位元組) 1TB=1024GB

  PB(Petabyte,派位元組) 1PB=1024TB

  EB(Exabyte,艾位元組) 1EB=1024PB

  ZB(Zettabyte,澤位元組) 1ZB=1024EB

  2、資料類型繁多(Variety)

  大資料的資料來源衆多,科學研究、企業應用和Web應用等都在源源不斷地生成新的資料。生物大資料、交通大資料、醫療大資料、電信大資料、電力大資料、金融大資料等,都呈現出“井噴式”增長,所涉及的數量十分巨大,已經從TB級别躍升到PB級别。

  大資料的資料類型豐富,包括結構化資料和非結構化資料,其中,前者占10%左右,主要是指存儲在關系資料庫中的資料,後者占90%左右,種類繁多,主要包括郵件、音頻、視訊、微信、微網誌、位置資訊、連結資訊、手機呼叫資訊、網絡日志等。

  如此類型繁多的異構資料,對資料處理和分析技術提出了新的挑戰,也帶來了新的機遇。

  3、處理速度快(Velocity)

  大資料時代的資料産生速度非常迅速。在Web 2.0應用領域,在1分鐘内,新浪可以産生2萬條微網誌,Twitter可以産生10萬條推文,蘋果可以下載下傳4.7萬次應用,淘寶可以賣出6萬件商品,人人網可以發生30萬次通路,百度可以産生90萬次搜尋查詢,Facebook可以産生600萬次浏覽量。大名鼎鼎的大型強子對撞機(LHC),大約每秒産生6億次的碰撞,每秒生成約700MB的資料,有成千上萬台計算機分析這些碰撞。

  大資料時代的很多應用,都需要基于快速生成的資料給出實時分析結果,用于指導生産和生活實踐,是以,資料處理和分析的速度通常要達到秒級響應,這一點和傳統的資料挖掘技術有着本質的不同,後者通常不要求給出實時分析結果。

  為了實作快速分析海量資料的目的,新興的大資料分析技術通常采用叢集處理和獨特的内部設計。以谷歌公司的Dremel為例,它是一種可擴充的、互動式的實時查詢系統,用于隻讀嵌套資料的分析,通過結合多級樹狀執行過程和列式資料結構,它能做到幾秒内完成對萬億張表的聚合查詢,系統可以擴充到成千上萬的CPU上,滿足谷歌上萬使用者操作PB級資料的需求,并且可以在2~3秒内完成PB級别資料的查詢。

  4、價值密度低(value)

  大資料雖然看起來很美,但是,價值密度卻遠遠低于傳統關系資料庫中已經有的那些資料。在大資料時代,很多有價值的資訊都是分散在海量資料中的。以小區監控視訊為例,如果沒有意外事件發生,連續不斷産生的資料都是沒有任何價值的,當發生偷盜等意外情況時,也隻有記錄了事件過程的那一小段視訊是有價值的。但是,為了能夠獲得發生偷盜等意外情況時的那一段寶貴的視訊,我們不得不投入大量資金購買監控裝置、網絡裝置、儲存設備,耗費大量的電能和存儲空間,來儲存攝像頭連續不斷傳來的監控資料。

  如果這個執行個體還不夠典型的話,那麼我們可以想象另一個更大的場景。假設一個電子商務網站希望通過微網誌資料進行有針對性營銷,為了實作這個目的,就必須建構一個能存儲和分析新浪微網誌資料的大資料平台,使之能夠根據使用者微網誌内容進行有針對性的商品需求趨勢預測。願景很美好,但是,現實代價很大,可能需要耗費幾百萬元建構整個大資料團隊和平台,而最終帶來的企業銷售利潤增加額可能會比投入低許多,從這點來說,大資料的價值密度是較低的。