天天看點

雲上Hadoop之部署結構

雲上Hadoop的部署結構

在雲上部署Hadoop是比較靈活的,可以根據不同的業務目标部署Hadoop叢集,筆者總結了在雲上的大體部署結構。

經典模式

雲上Hadoop之部署結構

傳統的部署模式如上,線下的機器比較固定,是以一般的節點上會部署Datanode、NodeManager節點。

經典模式2

雲上Hadoop之部署結構

一般把節點分為:Master Node、Core Node、Task Node。這麼部署結構相對靈活,也就是Task Node就部署NodeManager。如果需要添加計算能力,就添加Task Node。且因為Task Node無狀态,在縮小叢集時也相對簡單。(這樣就避免了線上下經常出現的,計算與存儲不比對的問題,導緻資源浪費)

存儲計算分離

雲上Hadoop之部署結構
雲上Hadoop之部署結構

在此模式下,資料放在OSS中,可以啟動Hadoop叢集分析資料。這種模式最大的好處就是Hadoop叢集可以用完就釋放掉,最大節約成本,E-Mapreduce也會提供按需計費的模式。

在一些常見的業務模式下,使用者需要的離線分析隻需要在晚上一段時間内完成即可。這樣,在半夜啟動一個叢集,分析OSS已經存放的資料非常合适。

tips:

HADOOP-12756

 Hadoop會支援讀取阿裡雲的OSS

第一個圖的做法是,提供一個OSSFileSystem。第二個圖的做法是,底層的HDFS直接代理走到OSS中,把HDFS做成無狀态的,這麼做的好處就是HDFS可以做一些類似alluxio的功能 ,且對上層完全透明。(目前還沒有實作)

雲資料共享

雲上Hadoop之部署結構

當客戶有多個叢集時,且有很多表時,中繼資料可以放在RDS(mysql)中,這樣使用者可以同時保有永久叢集,也可以再晚上啟動一個臨時叢集分析資料後釋放掉。

使用者資料可以放在 OSS或者永久叢集中。

VPC模式

雲上Hadoop之部署結構

這個主要是為了安全,使用者的業務、大資料系統全部在一個私有網絡中,這個網絡預設情況下跟外網是不通的,當然也可以通過技術手段也可以打通。

混合雲模式

雲上Hadoop之部署結構

在目前,客戶線下有很多專有系統,這些系統一時半會也不能上雲,比如:CRM、ERP、oracle等。但是使用者想用雲的大資料分析資料。這個時候可以做一個混合雲的方案,資料可以直接通過專線上傳到雲端。

以上的部署結構,都可以混合使用,滿足客戶自身的需求。

HBase技術交流社群

- 阿裡官方“HBase生态+Spark社群大群”點選加入:

https://dwz.cn/Fvqv066s