Hadoop簡介

1969-12-31 23:50:00

Hadoop簡介

Hadoop是使用Java編寫，允許分布在叢集，使用簡單的程式設計模型的計算機大型資料集處理的Apache的開源架構。 Hadoop架構應用工程提供跨計算機叢集的分布式存儲和計算的環境。 Hadoop是專為從單一伺服器到上千台機器擴充，每個機器都可以提供本地計算和存儲。

hadoop2.9.0暫時是個不成熟的版本，建議使用先前的穩定版本hadoop2.8.0

hadoop安裝部署的三種模式：

(1)Local (Standalone) Mode 本地模式（又稱單機模式）：hadoop的預設配置模式

1)hadoop使用本地檔案系統而非分布式檔案系統(HDFS)。

2)不會啟動任何hadoop守護程序，map任務和reduce任務作為同一個程序的不同部分來執行。

3)僅用于開發或調試MapReduce應用程式。

4)當首次解壓hadoop的源碼包時，預設選擇了最低的配置。這時，三個xml檔案均為空，當配置檔案為空時，hadoop會完全運作在本地。

(2)Pseudo-Distributed Mode 僞分布式模式

1)所有的程序都運作在同一台機器上。

2)使用分布式檔案系統，每個hadoop守護程序都是一個獨立的程序。

3)每個job都是由JobTracker服務管理的獨立的程序。

4)叢集中隻有一個節點，故HDFS的塊複制将限制為單個副本。

5)secondary-master和slaves也都将運作于本地主機。

6)程式的執行邏輯和分布式模式下的執行邏輯一樣，是以，常用于測試。

7)該模式在本地模式的基礎上添加了代碼的調試功能，允許你檢查記憶體的使用情況、HDFS輸入輸出、其它的守護程序的互動。

8)僞分布式模式也需要配置SSH無密碼本機連接配接本機

(3)Fully-Distributed Mode 完全分布式模式

多個節點組成的hadoop叢集，NameNode和DataNode節點分開.

繼續閱讀