天天看點

Hadoop項目規劃:硬體

規劃硬體我們主要介紹兩個方面:一個是Master怎麼規劃,一個是Slave怎麼規劃,選擇是不一樣的。其他規劃諸如容量以及作業系統的選擇也會簡單介紹,對于了解Hadoop的操作環境有着重要幫助作用。

首先我們看一下Slave,它是用來存儲資料然後進行計算的,在選擇配置的時候通常要優先考慮處理器。我們知道Hadoop的核心并不是在單台機器上進行多複雜的運算,它是分布式的,是以對于處理器的要求并不高,那麼選擇中等的資料器就可以(比如:2*6核2.9主頻)。

至于記憶體方面,要盡可能給高一點,中端給到256GB RAM,高端的給到512GB RAM。網絡方面中端給到1GB以太網,高端的給到10GB以太網。這裡重點要講的是磁盤驅動,16*3TB SATA驅動(中端的),24*1TB SAS驅動(高端的),我們發現越高端磁盤越多,通路效率也就越高。在磁盤驅動這裡也會涉及到一個概念Non-RAID,大家了解一下,具體可以自己去挖掘。

交換機使用專用的網絡設施,Hadoop将會使資源飽和,節點都連接配接到機架交換機,機架之間通過核心交換機通信。

接下來我們重點強調Master節點,Master沒有業務資料,不需要計算,但是Master存儲有源資料,是以Master節點很重要,在使用機器的時候如果條件允許,最好選擇高端的機器,營運商級别的硬體,雙電源、以太網卡,所有的子產品都做備援。它配置有Raid,因為Master上面就是源資料,資料沒有拷貝。20個節點以下叢集配置64GB RAM,300個節點以下叢集配置96GB記憶體,更大的叢集配置128GB記憶體。

至于容量規劃以及作業系統的選擇,我們不做過多的說明,了解就可以。容量規劃我們重點考慮複本機制和臨時空間,以及伺服器本身需要的空間。在這裡我們必須清楚Hadoop自動使用新節點,很多叢集開始很小(少于10個節點),并随着資料和處理的增長而增長,Hadoop叢集可以增長到上千個節點。而作業系統一般選擇擅長管理的發行版,也可以了解一下幾個:CentOS:面向伺服器,而不是工作站;RedHat企業版linux;Ubuntu非常流行的發行版;使用LTS(長期支援)的版本;SuSE在歐洲非常流行的發行版。

以上就是根據自己的經驗對Hadoop硬體環境做的一個介紹,如果有什麼不清楚的,比如Non-raid,可以自己去找資源充電。我平常也喜歡看一些别人分享的學習知識,進而彌補自己知識體系的欠缺,比如“大資料時代學習中心”。另外喜歡看一些實際的大資料案例,試着去分析案例中的問題,不斷提升自己調用知識的能力,比如“大資料cn”,大家共勉,一起進步。

繼續閱讀