Hadoop簡介
Hadoop是使用Java編寫,允許分布在叢集,使用簡單的程式設計模型的計算機大型資料集處理的Apache的開源架構。 Hadoop架構應用工程提供跨計算機叢集的分布式存儲和計算的環境。 Hadoop是專為從單一伺服器到上千台機器擴充,每個機器都可以提供本地計算和存儲。
hadoop2.9.0暫時是個不成熟的版本,建議使用先前的穩定版本hadoop2.8.0
hadoop安裝部署的三種模式:
(1)Local (Standalone) Mode 本地模式(又稱單機模式):hadoop的預設配置模式
1)hadoop使用本地檔案系統而非分布式檔案系統(HDFS)。
2)不會啟動任何hadoop守護程序,map任務和reduce任務作為同一個程序的不同部分來執行。
3)僅用于開發或調試MapReduce應用程式。
4)當首次解壓hadoop的源碼包時,預設選擇了最低的配置。這時,三個xml檔案均為空,當配置檔案為空時,hadoop會完全運作在本地。
(2)Pseudo-Distributed Mode 僞分布式模式
1)所有的程序都運作在同一台機器上。
2)使用分布式檔案系統,每個hadoop守護程序都是一個獨立的程序。
3)每個job都是由JobTracker服務管理的獨立的程序。
4)叢集中隻有一個節點,故HDFS的塊複制将限制為單個副本。
5)secondary-master和slaves也都将運作于本地主機。
6)程式的執行邏輯和分布式模式下的執行邏輯一樣,是以,常用于測試。
7)該模式在本地模式的基礎上添加了代碼的調試功能,允許你檢查記憶體的使用情況、HDFS輸入輸出、其它的守護程序的互動。
8)僞分布式模式也需要配置SSH無密碼本機連接配接本機
(3)Fully-Distributed Mode 完全分布式模式
多個節點組成的hadoop叢集,NameNode和DataNode節點分開.