天天看點

HDP、CDH、CDP更新

前言

Cloudera 在跟HortonWorks 合并後,便推出了新一代大資料平台 CDP,并正在逐漸停止原有的大資料平台 CDH 和 HDP。

但具體到何時會徹底停止對 CDH 和 HDP 的維護,CDH/HDP 停止維護後現有使用者該如何應對,以及 CDP 跟 CDH/HDP 的異同,或多或少都有些模式。

下圖簡要介紹了CDH和HDP側重的技術領域:

可以看到CDH和HDP都重點涵蓋了資料工程和資料倉庫場景

同時CDH對AI,ML和資料科學場景有側重

而HDP對IoT資料攝取和流場景有側重

HDP、CDH、CDP更新

2、下圖簡要介紹了目前市面上主流CDH和HDP版本的關鍵時間點

HDP2.x和CDH5.x對應的是hadoop2.x

HDP3.x和CDH6.x對應的是hadoop3.x

目前官方已經停止了對HDP2.x和CDH5.X的技術支援

官方對HDP3.x和CDH6.x的技術支援也都會在最近半年停止

具體來講,HDP3.x的最新版HDP3.1會在2021/12月停止技術支援

具體來講,CDH6.x的最新版CDH6.3會在2022/3月停止技術支援

CDP 介紹

1、CDP 可以認為是将原來的 CDH/HDP 融合在了一起,具體融合方式如下圖所示,關鍵點是:

淘汰了競争的技術

融合了重疊的技術

保留了互補的技術

更新了共享的技術

并增加了某些新功能

HDP、CDH、CDP更新
HDP、CDH、CDP更新

2. CDP 對應不同場景,推出了三大版本:

對應公有雲場景的 CDP public cloud,目前三大公有雲廠商 aws, gcp, azure都已經提供了支援;

對應私有雲場景的 CDP private cloud plus,其計算叢集使用了 docker 和 k8s 相關技術;

對應資料中心場景的 CDP private cloud base, 其實對應的就是原來場景的 CDH 和 HDP;

三大版本底層對應的是同樣的 cloudera runtime,其實質就是大資料各個具體元件,如 hdfs/hive/spark等等。

HDP、CDH、CDP更新
HDP、CDH、CDP更新

Cloudera 的新許可證政策

Cloudera 的新許可證政策如下圖所示,其關鍵點是:

Cloudera 所有産品都将開源 (至少承諾的是如此,包括原來CDH中不開源的cloudera manager等也将開源),其開源模型類似 Red Hat開源模型;

Cloudera 所有産品的二進制檔案和源代碼,都需要訂閱,(即不再提供社群版,隻提供企業版,都需要付費,不再有免費的午餐!);

自2019年11月以來,通路産品的二進制檔案需要訂閱和 paywall credentials (即沒有paywall credentials 的話,将不再能從 cloudera 官網下載下傳 parcel/rpm 包);

2021年1月後,擴充的Paywall将包括平台的早期版本,包括所有版本的CDH/HDP/HDF等 (即目前所有版本的CDH/HDP/HDF/CDP,從官網下載下傳 parcel/rpm 包,都需要有 paywall credentials);

使用遺留CDH/HDP系統的小夥伴們該何去何從

概括起來,使用遺留CDH/HDP系統的小夥伴們,有以下選擇:

繼續使用原有版本的CDH/HDP:在指定日期之後,Cloudera官方不再對原有版本的CDH/HDP提供技術支援,這僅僅意味着Cloudera官方不會再對原有版本提供新特性增強,也不再對原有版本提供BUG修複,但客戶原有的大資料平台仍然是能夠正常提供服務的 (這點不同于星環的TDH,TDH在許可證到期之後,整個叢集中的服務就不能再重新開機,不能在正常提供服務了);

考慮市面上其他供應商的大資料平台,如星環的TDH,或基于開源apache版本自行封裝。不過需要注意,星環的TDH是閉源的,其一些參數跟開源的并不相容,有 vendor lock in的風險;

按照Cloudera的建議,在合适的時機,更新到 CDP平台。

如何從 CDH/HDP 遷移到CDP?

Cloudera 提供了一系列工具幫助大家盡量平滑地從CDH/HDP更新到CDP。

Cloudera官方建議的更新方式有四種方式:

原地更新

拷貝更新/遷移更新

滾動式拷貝更新/遷移更新

遷移到公有雲

HDP、CDH、CDP更新

 不考慮遷移到共有雲的話,大家可以主要考量兩種遷移方式,即原地更新和拷貝更新/遷移更新,其優缺點如下圖所示:

HDP、CDH、CDP更新