天天看點

大資料時代-你需要了解的大資料處理神器-Hadoop

hadoop

        • 1.1 hadoop 介紹
        • 1.2 hadoop 元件介紹
          • Hadoop的核心生态架構
          • 核心元件
        • 2.1 hadoop 搭建
          • 2.1.1 hadoop 下載下傳
          • 2.1.2 準備環境
          • 2.1.3 安裝 方式
          • 2.1.4 配置
          • 2.1.5 測試

1.1 hadoop 介紹

官網介紹:

​ The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

百科介紹

​ Apache Hadoop軟體庫是一個架構,該架構允許使用簡單的程式設計模型跨計算機叢集對大型資料集進行分布式處理。它旨在從單個伺服器擴充到數千台機器,每台機器都提供本地計算和存儲。庫本身不用于依靠硬體來提供高可用性,而是設計用于檢測和處理應用程式層的故障,是以可以在計算機叢集的頂部提供高可用性服務,每台計算機都容易出現故障。

作用

Hadoop主要用來存儲以及處理 大量并且複雜的資料

1.2 hadoop 元件介紹

Hadoop的核心生态架構
  • 底層:存儲層,檔案系統HDFS,NoSQL Hbase
  • 中間層:資源及資料管理層,YARN以及Sentry等
  • 上層:MapReduce、Impala、Spark等計算引擎
  • 頂層:基于MapReduce、Spark等計算引擎的進階封裝及工具,如Hive、Pig、Mahout
核心元件
  • mapreduce:分布式批計算引擎,就是把一部分資料,拆分到多個節點,進行計算。說通俗了,就是把一個java裡的數組拆分若幹份,扔給多個機器上的mr程序,讓它們處理,至于怎麼處理邏輯都是自己寫。
  • hdfs:一個分布式檔案系統,這個不多說了,不了解dfs的話查查就明白。
  • yarn:資源管理排程架構,如果你寫了一堆定時執行的批處理程式,想讓它在一堆伺服器中的任意一台運作,但是這些伺服器的資源(記憶體、cpu)是有限的,你希望這些程式能夠自動的選擇一台資源相對不錯的機器運作,且當伺服器資源不夠時,剩下尚未運作的程式需要進行等待,說白了就是能把這些伺服器資源管理起來,你每次啟動程式不用手動去每台機器上找,同時能監控伺服器的資源使用,讓它們别超标影響其他程式,還能跟着每個程式執行狀況,那麼yarn就是做件事情的。

2.1 hadoop 搭建

2.1.1 hadoop 下載下傳
下載下傳位址:https://hadoop.apache.org/releases.html
2.1.2 準備環境

jdk安裝(因為 hadoop是 java 開發)

2.1.3 安裝 方式

Hadoop 部署模式有:本地模式、僞分布模式、完全分布式模式、HA完全分布式模式。

區分的依據是 NameNode、DataNode、ResourceManager、NodeManager等子產品運作在幾個JVM程序、幾個機器。

模式名稱 各個子產品占用的JVM程序數 各個子產品運作在幾個機器數上
本地模式 1個 1個
僞分布式模式 N個 1個
完全分布式模式 N個 N個
HA完全分布式 N個 N個
2.1.4 配置
2.1.5 測試

運作MapReduce程式,驗證

我們這裡用hadoop自帶的wordcount例子來在本地模式下測試跑mapreduce。

  1. 準備mapreduce輸入檔案wc.input
  2. 運作 hadoop 自帶的 mapreduce Demo
  3. 檢視輸出檔案

    輸出目錄中有 _SUCCESS 檔案說明 JOB 運作成功

具體詳細的 各元件 詳解 和 詳細安裝教程 後續會陸續 更新

個人能力有限

歡迎大家留言,如有問題,會及時更正(接受一切正确的 建議)

官網位址:http://hadoop.apache.org/

參考:

https://www.zhihu.com/question/333417513

https://www.jianshu.com/p/0d4a365ef350