我記得早在2001年,Gartner公司的一份研究報告首次出現“大資料(Big Data)”概念的提法。但是到今天業内對“大資料”一詞的定義說法不一,但越來越多的研究機構和網絡媒體開始關注它。大資料正成為繼雲計算之後新的熱詞。同雲計算一樣,大資料雖然也看不見摸不到,卻與今天的IT技術發展如影随形,已經深入到目前的資訊生産、加工、交換過程之中,我們已經享受到的某些資訊服務,如在社交網站看到的是自己想關注甚至是感興趣的廣告而看不到不想關注的廣告,這其實是大資料技術的功勞。
背景
移動網際網路的帶寬的增加和智能裝置銷售量的上升,網際網路業迎來了“雲計算”和“大資料”。世界經濟論壇一份有關大資料的研究報告稱,每天全球幾十億人使用計算機、GPS裝置、電話和醫療裝置,産生海量的資料資訊。這些使用者大部分來自開發中國家,他們的需求和習慣尚未被真正了解,如果能夠借助大資料相關技術分析和挖掘資料背後的資訊,将有助于認識需求、提供預測和防範危機。另有評述說,美國的汽車保有量是中國三倍,而其車禍死亡人數僅為中國的一半,這得益于資訊社會的資料革命之功。
毫無疑問,現在我們比曆史上任何時候擁有的資料資訊都要多得多。這些資料來源各式各樣:收集氣候變化的傳感器,社交媒體上的消息,數字照片和視訊,交易記錄,行動電話的GPS信号等等。中國移動研究院在一份簡報中稱,随着全球資訊化的程序加快,資料量的增加已經到達了前所未有的速度,2011年創造的資訊資料達到180億GB,而且每年以60%增加,到2020年全球一年産生的數字資訊将達到35ZB,相當于350萬億GB。資料在持續地增多變大,多到現有資料技術無法分析處理,我們需要專門來解讀這些海量資料的技術,這就是“大資料技術”。
概念
如同Gartner公司的報告裡提到的那樣,業界普遍認同所謂“大資料”具有明顯的“3V特征”:量級(Volume),速度(Velocity)和多樣性(Variety)。大資料普遍具有量級大,要求處理速度快,資料本身具有豐富的多樣性。在甲骨文公司和中國移動研究院的相關研究文檔裡,都追加了第四個V——Value,價值, 而IBM在其相關文檔中給出的第四個“V”則是真實性(Veracity) 。
基于個人的觀點,我給大資料技術的定義是:
在海量的規則或不規則資料集中,用新的資料處理手段,以很快的速度計算或分析出潛在規律性、根本性的判斷、趨勢或預見。也可以簡單說是資料集太大以至于傳統資料庫軟體無法處理,是以稱為“大資料技術”。
從資料生成類型上區分,大資料可分為交易資料、互動資料和傳感資料;從資料來源上分,大資料可分為社交媒體、銀行/購物網站、行動電話和平闆電腦、各種傳感器/物聯網等等;從資料格式可以分為文本日志、整型資料、圖檔、聲音、視訊等;還可從資料關系上區分為結構化資料(如交易流水帳)和非結構化資料(如圖、表,地圖等);從資料所有者可分為公司尤其巨型公司資料、政府資料、社會資料——網絡資料。
根據美國白宮的“大資料開發計劃”中的說,大資料開發也可指“從龐大而複雜的數字資料中發
掘知識及現象後的本質(extract knowledge and insights from large and complex collections of digital data)”。同時也看到,現在所讨論的大資料并不僅僅是資料尺寸的變大,它還可以被視作一個機會,籍此可以在新的正在生成的資料和内容中找到本質的東西,進而使商業運作更靈活,幫助回答一些此前無法預知的問題。
主要技術
大資料的提出是為了解決現有資料技術無法滿足快速增多、日益複雜化的資料集合,是以基于大資料的技術涉及層面較廣,至少包括如下一些現有技術的綜合運用。關聯規則學習、分類、分組分析、衆包技術、資料異構與同構、機器學習、自然語言處理、神經網絡、模式識别、預測模型、情态分析、信号處理、時序分析和可視化處理等。
上述每一項技術如果展開來說,需要寫很多篇文章來讨論。如關聯規則學習,是資料挖掘的一個重要課題,用于從大量資料中挖掘出有價值的資料項之間的相關關系,由此産生了對基于大資料的推薦系統的應用研究。再如機器學習,機器學習算法是從資料中自動分析獲得規律,并利用規律對未知資料進行預測的算法。因為學習算法中涉及大量的統計學理論,機器學習與統計推斷學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實作的、行之有效的學習算法。很多推論問題屬于無程式可循難度,是以部分的機器學習研究是開發容易處理的近似算法。
大資料的具體化、執行個體化的應用離不開Apache Hadoop項目,一種開源、可擴充、分布式的應用計算架構。它包括Common、Distributed File System、MapReduce三個元件部分。Hadoop 的 Map/Reduce 架構是一種主/從架構,機群中有單一的主伺服器以及若幹個從伺服器,在每個節點都有一個從伺服器,這些分布式的節點協同工作,共同完成一個整體的大資料處理任務。目前也出現了Spark架構,基于Hadoop技術之上的另一種未來很可能替代Map/Reduce架構,以後我們會詳細讨論。
微信号:caimin_yyh
