我們知道,Hadoop最擅長的事情就是可以高效地處理海量規模的資料,這樣Hadoop就和大資料及雲計算結下了不解之緣。講解Hadoop、大資料以及雲計算之間的關系,使你從大資料和雲計算的角度來認識Hadoop。
大資料一般是指這樣的資料:資料量巨大,需要運用新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的資訊資産。大資料可分成大資料技術、大資料工程、大資料科學和大資料應用等領域。目前人們談論最多的是大資料技術和大資料應用,大資料工程和大資料科學尚未被重視。大資料工程指大資料的規劃建設及其營運管理的系統工程;大資料科學關注的是大資料網絡發展和營運過程中發現和驗證大資料的規律及其與自然和社會活動之間的關系。
大資料的特征有四個層面:
第一、資料量巨大。從TB級别,躍升到PB級别;
第二、資料類型繁多。包括網絡fl志、視訊、圖檔、地理位置資訊等;
第三,價值密度低。商業價值高,以視訊為例.在連續不間斷的監控過程中,可能有用的資料僅僅隻有一兩秒;
第四、處理速度快。最後這一點也和傳統的資料挖掘技術有着本質的不同。業界将其歸納為4V —— Volume、Variety、Value 和Velocity。
上面我們介紹了大資料的基本概念以及其顯著的特征,下面将從不同的次元來闡述大資料的核心問題。
1.資料态的多樣性問題
大資料具有多态性,主要展現在資料源、結構及相關度上。在資料來源上包括(圖像、視訊、音頻、文本、網頁、資料流等;在結構上不僅僅包括結構化的資料,還包括非結構化的資料;在相關度上不僅有資料記錄彼此間相關性問題,還有時間序列資料的相關性問題。
2.次元複雜性問題
首先,大資料中存在着多元空間的次元問題,例如典型的三元空間中大資料的産生、狀态感應以及采集問題,這個問題在物聯網中非常常見;其次,就是柔性粒度資料的傳輸、移動、存儲及計算問題;最後,就是資料空間範圍和資料密度的不均勻問題。
3.大資料存儲問題
大資料最為顯著的特征就是資料規模非常巨大,單機系統肯定無法解決存儲問題,這就需要分布式存儲系統作為大資料的存儲支撐服務,而分布式存儲系統需要考慮的核心問題包括:高可靠性、擴一展性、伸縮性、容災及恢複等問題。
4.大資料計算分析問題
由大資料的特征可知,大資料在資料規模上非常巨大,要在一定的時間内達到撷取、管理、處理并整理為能夠幫助企業做出經營決策更有效的資訊,傳統的順序計算模式必然不能滿足這樣的需求,這就要求使用叢集計算系統來完成計算分析任務。基于叢集的計算模型目前主要包括:基于消息傳遞的MPI , MapReduce計算模型、流式計算架構Storm , S4、高性能叢集計算HPCC,以及基于共享記憶體RDD的Spark模型。
5.大資料價值挖掘問題
由于大資料的價值密度低而商業價值大,這使得大資料的價值挖掘顯得格外重要,而價值挖掘主要包括兩個階段:第一個階段就是過濾清洗,需要在盡量不損失其價值的條件下減小資料規模,同時在不改變資料基本屬性的情況下采取資料清洗、抽樣、去重、過濾、篩選、壓縮、索引、提取中繼資料等方法,以直接将大資料變小;第二個階段就是對商業價值的挖掘,主要是發揮大資料探索式考察與可視化作用,人機的互動分析可以将人的智慧融入資料,再者是通過群體智慧、社會計算、認知計算對資料價值進行提煉,進而挖掘出大資料中隐藏的商業價值。
上面的内容講述了大資料的基本概念及與大資料相關的幾個核心問題,通過這些問題我們已對大資料有了一個初步的了解,那麼大資料、Hadoop及雲計算之間到底是什麼關系呢?為了從大資料和雲計算的角度去了解Hadoop,下面将闡述這三個概念之間的關系。
可以這樣說,正是由于大資料對系統提出了很多極限的要求,不論是存儲、傳輸還是計算,現有計算技術難以滿足大資料的需求,是以整個IT架構的革命性重構勢在必行,存儲能力的增長遠遠趕不大資料的增長,設i十最合理的分層存儲架構已成為資訊系統的關鍵。分布式存儲架構不僅需要scale up式的可擴充性,一也需要scale out式的可擴充性,是以大資料處理離不開雲計算技術,雲計算可為大資料提供彈性可擴充的基礎設施支撐環境以及資料服務的高效模式,大資料則為雲計算提供了新的商業價值,大資料技術與雲計算技術必将有更完美的結合。
我們知道雲計算的關鍵技術包括分布式并行計算、分布式存儲以及分布式資料管理技術,而Hadoop就是一個實作了Google雲計算系統的開源平台,包括并行計算模型MapReduce、分布式檔案系統HDFS,以及分布式資料庫Hbase,同時Hadoop的相關項目也很豐富,包括ZooKeeper , Pig , Chukwa , Hive , Elbase , Mahout等,這些項日都使得Hadoop成為一個很大很完備的生态鍊系統。目前使用Hadoop技術實作的雲計算平台包括IBM的藍雲.雅虎、英特爾的“雲計劃”,百度的雲計算基礎架構,阿裡巴巴雲計算平台,以及中國移動的B igCloud大雲平台。
總而言之,用一句話概括就是雲計算因大資料問題而生,大資料驅動了雲讨一算的發展,而Hadoop在大資料和雲計算之間建起了一座堅實可靠的橋梁。
本文轉自大資料躺過的坑部落格園部落格,原文連結:http://www.cnblogs.com/zlslch/p/5080573.html,如需轉載請自行聯系原作者