天天看點

大資料概述以及Hadoop什麼是大資料?他有哪四個基本特征(四個V)?Hadoop大資料處理架構

  • 什麼是大資料?他有哪四個基本特征(四個V)?

    • 大資料,是指無法在可承受的時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合。
    • 資料量大,TB,PB,乃至EB等資料量的資料需要分析處理。

      Volume

    • 處理速度快,市場變化快,要求能及時快速的響應變化,那對資料的分析也要快速,在性能上有更高的要求是以資料量顯得對速度要求有些大。

      Velocity

    • 資料種類繁多:不同的資料源,非結構化資料越來越多,需要進行清洗,整理,篩選等操作,變為結構資料。

      Variety

    • 價值密度低,由于資料采集的不及時,資料樣本不全面,資料可能不連續等等,資料可能會失真,但當資料量達到一定規模,可以通過更多的資料達到更真實全面的回報。

      Value

  • Hadoop大資料處理架構

    • Hadoop是一個開源的、可運作于大規模叢集上的分布式計算平台,它實作了MapReduce計算模型和分布式檔案系統HDFS等功能。
    • hadoop的特性:高可靠性、高效性、高可擴充性、高容錯性、成本低、運作在Linux平台上、支援多種程式設計語言。
    • Hadoop是基于Java語言開發的,具有很好的跨平台特性,并且可以部署在廉價的計算機叢集中。
    • Hadoop的核心是分布式檔案系統和MapReduce。
    • 借助于Hadoop,程式員可以輕松地編寫分布式并行程式,并将其·運作于廉價計算機叢集上,萬成為那個海量資料的存儲與計算。
    • 國内采用Hadoop的公司主要有:百度、淘寶、網易、華為、中國移動等。
    • Hadoop生态系統包括核心的HDFS和MapReduce以外還包括Zookeeper、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari。
    • Hadoop的安裝配置主要包括以下五個步驟     
      • 建立Hadoop使用者(建立使用者:useradd,設定密碼:passwd)​
      • 安裝Java(Hadoop開發和運作都需要Java的支援,Ubuntu系統可能已經預裝了java)​
      • 設定SSH登入權限
      • 單機安裝配置
      • 僞分布式安裝配置