對hadoop初學者來說,或者說正在使用hadoop的開發者來說,hadoop環境的搭建不是一件省心的事,甚至很多部落格上都重要的事說三便“不要花精力在搭建環境之上”,可見很多人在搭建環境時會遇到很多問題,并且會花費很多時間,本文将把所有的“玩法”都過一下,相信看完之後,你心裡就有數了,将會依據自己的需求來選擇合适的搭建方式。
部署方式 | 優勢 | 不足 | 适合場合 |
Apache Hadoop 單機 | • 單台機器即可 • 簡單 • 所需元件少 | • 一般不用于生産 • 無HA • 無法展現分布式 | • 初學 • 開發測試 • 小規模試用 |
Apache Hadoop 叢集 | • 靈活的版本選擇 • 自主可控性較好 • 應用場景廣泛 | • 需專業人員管理 • 元件間相容性差 • 配置、運維複雜 | • 學習 • 開發測試 • 生産環境 |
CDH或 HDP | • Web管理和監控 • 開源廠商支援 • 相容性和穩定高 | • 仍需大量配置 • 受制于廠商 • 更新版本稍慢 | • 開發測試 • 生産環境 |
其它廠商類CDH | • 有自己擴充特性 • 廠商支援 | • 非免費 • 嚴重受制于廠商 | • 生産環境 |
編寫shell部署運維腳本 | • 自控性好 • 配置簡單 • 靈活性好 | • 需編寫腳本 • 測試費時 • 需不斷完善 | • 學習 • 開發測試 • 生産環境 |
通過上面的對比,總結如下:
l 初學hadoop,希望快速開始,采用第一種apache單機,無基礎的情況下1個小即可完成,有linux基礎除掉安裝虛拟機、linux的時間,10分鐘可完成;
l 用于生産環境或測試環境,采用第三種cdh方式,管理叢集都是圖形化,但是缺少了對内部深層次的了解;
l 對于深入學習者,已經有一定經驗和積累了,可以選最後一種,不斷可以深入的了解内部各程序依賴關系,還可以提升shell腳本檔案程式設計水準。
關于每一種環境的詳細搭建方式,将會分幾個章節在後面分别介紹,另外如果可能也會錄制一些免費視訊,詳細的講解一下操作步驟。
打個廣告,最近錄了一門課程,大部分是免費的,忙我湊湊人氣哦! HBase 設計和程式設計開發視訊課程