前言
Cloudera 在跟HortonWorks 合并後,便推出了新一代大資料平台 CDP,并正在逐漸停止原有的大資料平台 CDH 和 HDP。
但具體到何時會徹底停止對 CDH 和 HDP 的維護,CDH/HDP 停止維護後現有使用者該如何應對,以及 CDP 跟 CDH/HDP 的異同,或多或少都有些模式。
下圖簡要介紹了CDH和HDP側重的技術領域:
可以看到CDH和HDP都重點涵蓋了資料工程和資料倉庫場景
同時CDH對AI,ML和資料科學場景有側重
而HDP對IoT資料攝取和流場景有側重

2、下圖簡要介紹了目前市面上主流CDH和HDP版本的關鍵時間點
HDP2.x和CDH5.x對應的是hadoop2.x
HDP3.x和CDH6.x對應的是hadoop3.x
目前官方已經停止了對HDP2.x和CDH5.X的技術支援
官方對HDP3.x和CDH6.x的技術支援也都會在最近半年停止
具體來講,HDP3.x的最新版HDP3.1會在2021/12月停止技術支援
具體來講,CDH6.x的最新版CDH6.3會在2022/3月停止技術支援
CDP 介紹
1、CDP 可以認為是将原來的 CDH/HDP 融合在了一起,具體融合方式如下圖所示,關鍵點是:
淘汰了競争的技術
融合了重疊的技術
保留了互補的技術
更新了共享的技術
并增加了某些新功能
2. CDP 對應不同場景,推出了三大版本:
對應公有雲場景的 CDP public cloud,目前三大公有雲廠商 aws, gcp, azure都已經提供了支援;
對應私有雲場景的 CDP private cloud plus,其計算叢集使用了 docker 和 k8s 相關技術;
對應資料中心場景的 CDP private cloud base, 其實對應的就是原來場景的 CDH 和 HDP;
三大版本底層對應的是同樣的 cloudera runtime,其實質就是大資料各個具體元件,如 hdfs/hive/spark等等。
Cloudera 的新許可證政策
Cloudera 的新許可證政策如下圖所示,其關鍵點是:
Cloudera 所有産品都将開源 (至少承諾的是如此,包括原來CDH中不開源的cloudera manager等也将開源),其開源模型類似 Red Hat開源模型;
Cloudera 所有産品的二進制檔案和源代碼,都需要訂閱,(即不再提供社群版,隻提供企業版,都需要付費,不再有免費的午餐!);
自2019年11月以來,通路産品的二進制檔案需要訂閱和 paywall credentials (即沒有paywall credentials 的話,将不再能從 cloudera 官網下載下傳 parcel/rpm 包);
2021年1月後,擴充的Paywall将包括平台的早期版本,包括所有版本的CDH/HDP/HDF等 (即目前所有版本的CDH/HDP/HDF/CDP,從官網下載下傳 parcel/rpm 包,都需要有 paywall credentials);
使用遺留CDH/HDP系統的小夥伴們該何去何從
概括起來,使用遺留CDH/HDP系統的小夥伴們,有以下選擇:
繼續使用原有版本的CDH/HDP:在指定日期之後,Cloudera官方不再對原有版本的CDH/HDP提供技術支援,這僅僅意味着Cloudera官方不會再對原有版本提供新特性增強,也不再對原有版本提供BUG修複,但客戶原有的大資料平台仍然是能夠正常提供服務的 (這點不同于星環的TDH,TDH在許可證到期之後,整個叢集中的服務就不能再重新開機,不能在正常提供服務了);
考慮市面上其他供應商的大資料平台,如星環的TDH,或基于開源apache版本自行封裝。不過需要注意,星環的TDH是閉源的,其一些參數跟開源的并不相容,有 vendor lock in的風險;
按照Cloudera的建議,在合适的時機,更新到 CDP平台。
如何從 CDH/HDP 遷移到CDP?
Cloudera 提供了一系列工具幫助大家盡量平滑地從CDH/HDP更新到CDP。
Cloudera官方建議的更新方式有四種方式:
原地更新
拷貝更新/遷移更新
滾動式拷貝更新/遷移更新
遷移到公有雲
不考慮遷移到共有雲的話,大家可以主要考量兩種遷移方式,即原地更新和拷貝更新/遷移更新,其優缺點如下圖所示: