本期導讀 :【阿裡雲 CDP 公開課】第一講
主題:CDP 産品介紹
講師:棕澤,阿裡雲開源大資料生态産品研發負責人
内容架構:
- 阿裡雲+Cloudera 産品介紹
- 公有雲方案:雲上 CDP
- 專有雲方案:CDP、CDF、CDSW
- 典型場景
直播回放連結:(1講)
https://developer.aliyun.com/live/247867一、阿裡雲+Cloudera 産品介紹
Cloudera 公司簡介
- 企業資料雲公司 – Cloudera
-
- 2008年成立,2014年進入中國,肯睿(上海)軟體有限公司
- 主要代表産品:CDH,全球最受歡迎的Hadoop發行版,100%開源
- 2019年1月3日,Cloudera 和 Hortonworks 正式合并
- 2021年7月,Cloudera 中國和阿裡雲正式戰略合作
- 公司定位
-
- 開源和開放标準:Cloudera 一直緻力于以社群驅動的基于開放标準的基于 Hadoop 的平台,滿足企業對穩定性和可靠性的最高期望
- 企業資料雲:專注于企業級安全和治理、多功能資料分析、彈性的雲計算體驗、消除資料孤島
- 核心産品:Cloudera Data Platform(CDP),Cloudera Data Flow(CDF),Cloudera Data Science Workbench(CDSW)
阿裡雲 +Cloudera大資料方案介紹
Cloudera産品在FORRESTER WAVES中的位置
核心産品 - Cloudera Data Platform(CDP)
CDP攝取CDH和HDP兩者的優勢
- Cloudera Data Platform(CDP)合并Hortonworks 公司和 Cloudera 公司的最佳技術,提供業界首個企業資料雲産品。
- CDP 在混合雲和多雲環境中可以提供強大的自助服務分析給你,以及IT和資料管理者所需要的複雜性、細粒度的安全與治理政策。
Cloudera最新的許可政策
- 我們的許可政策類似于成熟的Red Hat開源模型。
- 該模型在市場上廣為人知,并被全世界的企業所接受。
- 已有産品的許可證将在整個21财年發生變化
- 自2019年11月以來,通路産品的二進制檔案需要訂閱和paywall credentials
從2019年11月後,Cloudera再釋出的産品不再提供社群版(免費版),隻有企業版。隻有訂閱了Cloudera産品,才能下載下傳對應的媒體。2021年1月後,擴充的Paywall将包括平台的早期版本。
- 所有産品源均将獲得OSI準許的許可證(Apache軟體許可證(ASL)或Affero通用公共許可證(AGPL))的許可。
- 通路從Cloudera獲得的所有産品的二進制檔案和源代碼都需要訂閱協定
- 由Apache Software Foundation托管的我們為之貢獻的所有開源項目将繼續是ASF管轄的項目。
- 我們的源代碼貢獻模型保持不變,并且仍然是第三方項目的第一個上遊。 第三方項目存儲庫的公共資源僅在上遊。
Cloudera終止提供開源CDH,産生遷移機會
- 2021年2月1日,停止CDH和HDP的免費下載下傳
- HDP 2.6.x/CDH 5.x覆寫了約70%的客戶群,EOS時間2020年12月終止服務
- CDH 6.3: 2022年3月終止服務
售賣形态:基于阿裡雲如何售賣CDP?
- 公有雲:半托管CDP
Cloudera企業資料雲是 社群版CDH的全新商業化更新産品,是阿裡雲和Cloudera聯合打造阿裡雲上的半托管形态的大資料平台。該平台可以靈活地運 行各種企業工作負載(包括實時攝取和分析、批處理、互動式SQL、企業搜尋、進階分析和機器學習等),支援從邊緣計算到人工智能的多功能資料 分析,提供企業級的安全模型來包客戶資料安全。
- 專有雲On-Premise:線下轉售三大套件(CDP、CDF、CDSW)
傳遞模式
二、公有雲方案:雲上 CDP
基于阿裡雲部署的CDP
産品核心
- 部署商業版CDP,包括完整的Cloudera Manager及Cloudera Runtime
- 基于多種規格的ECS,開箱即用,支援雲上叢集擴充能力以及資料湖
- 與阿裡雲産品內建互通,提供高安全、合規和高可用的雲上CDP平台,降低複雜性
- 無需配置的正版軟體及正版 license 許可證
産品引擎與服務
- 100% 相容開源 Hadoop生态,經阿裡雲與Cloudera聯合研發性能優化
- 提供商業化SLA保障與7*24小時 Cloudera 專家支援服務
- 提供專家服務及咨詢,如平台遷移、資料遷移、版本更新、參數調優等
一緻的安全與治理 - SDX
專為随時随地進行多功能分析而設計
- 安全性:動态細粒度的通路控制始終應用于所有雲和資料中心。 包括全棧加密和密鑰管理
- 治理:跨平台應用的企業級審計,血緣和治理功能,具有豐富的合作夥伴內建擴充性
- 中繼資料:利用所有中繼資料(結構、營運、業務和社交)建立資訊資産,以提高可用性、信任度和價值
- 目錄:用于管理和使用跨越所有分析和部署的資料資産的單一窗格
- 智能:洞悉平台中如何使用資料、中繼資料和分析,進而為優化提供建議和自動化
SDX提供
- 通過在所有雲和資料中心中一緻地應用動态細粒度通路控制實作安全性。 包括全棧加密和密鑰管理
- 通過跨平台應用的企業級審計、沿襲和治理功能進行治理,并具有豐富的合作夥伴內建擴充性
- 還有智能,可以洞悉平台中如何使用資料,中繼資料和分析,進而為優化提供建議和自動化
- 我們從最廣泛的意義上利用中繼資料:不僅是您稱為架構的結構類型,而且還包括營運、業務和社交方面的中繼資料,建立資訊資産以提高可用性,信任度和價值
- 最後,SDX提供的資料目錄是一個統一的窗格,用于管理和使用涵蓋所有分析和部署的資料資産
統一版本(CDP – Cloudera Data Platform)
CDP - 攝取CDH和HDP兩者的優勢
CDP PVC基礎版功能地圖
CDP 針對 CDH/HDP 使用者的新功能
CDP大資料元件清單
CDP大資料元件清單 – 簡化管理的緊密結合的平台
公有雲客戶:1.2倍成本帶來三大收益
三、專有雲方案:CDP、CDF、CDSW
CLOUDERA-混合資料雲
On-Premise(專有雲)整體方案,CDP/CDF/CDSW
ClouderaDATAFLOW – 從邊緣到雲的實時流資料管理
- 邊緣和流管理
利用 ApacheNiFi、ApacheMiNiFi和Cloudera Edge Flow Manager(從邊緣到 AI 的流管理)建構從邊緣到公共雲的可擴充資料流所需的一切。 使您能夠從任何地方到任何地方收集、整理和攝取資料。
- 流式消息傳遞
由 Apache Kafka 提供支援的面向企業和雲的企業級消息傳遞解決方案。 Streams Messaging Manager 用于監控/管理叢集,Streams Replication Manager 用于 HA/DR 部署,Kafka Connect 用于內建,Cruise Control 用于管理和平衡 Kafka 叢集。
- 流處理和分析
支援多個流處理引擎。ApacheFlink 和 SSB 通過進階視窗和狀态管理為您提供有狀态、低延遲的流處理功能。
Cloudera Data Science Workbench(CDSW)
CDSW-機器學習:覆寫從邊緣到AI的場景
專有雲線下客戶,彌補CDH三大不足
- 更多元件和更高版本
-
- CDP新增元件包括Zeppelin,Livy,Phoenix,SMM,Knox,ORC,Ranger和Atlas等等
- 更多的企業管理
- 企業級安全和管理
-
- CDP的Apache Ranger提供了新的安全功能(動态行過濾和列掩碼)。 同時借助ApacheAtlas,CDP改進了資料資産管理功能,幫助企業實作PCI和GDPR标準。
- 更多的企業管理平台內建。
- 版本持續更新更長時間
-
- EoS時間比較
CDH 6.3: 2022年3月。後續僅有維護版本
CDP 7.1: 2023年5月。産品線持續更新
四、典型場景
為什麼選擇CDP?
許可證renew+硬體更新的機會
- HDP 2.6.x/CDH 5.x覆寫了約70%的客戶群
- 計劃到2020年12月成為EoS
- 運作這些軟體的客戶将需要更新到受支援的版本
阿裡雲CDP産品客戶價值
- 更快、更高效、更安全
- 重大功能增強/性能改進
-
- 資料工程:Spark3性能提升2倍;支援Nvidia GPU卡,性能再提升3-7倍
- 資料倉庫:Impala性能提升2到7倍;新執行引擎Hive on Tez,支援ACID、物化視圖,性能提升5倍以上
- 營運資料庫:支援SQL和No SQL多種模式,吞吐量性能提高15-20%
- 流處理:完善的叢集管理,複制,流量控制
- 安全合規和售後支援
-
- 基于Ranger提供統一的細粒度通路控制,動态行過濾和列掩碼
- 基于Atlas提供完善的中繼資料、血緣和監管鍊,進階資料發現和業務詞彙表
- 持續修複已報的CVE安全漏洞
- 專家支援服務,快速解決使用問題,使用者專注業務
- 不更新的影響
-
- 舊平台功能/性能/安全受限,無法滿足部分應用需求和國家/行業合規性需求
- 沒有售後支援,應用無法放心的廣泛應用于生産,影響業務創新
- CDP7.1 VS CDH6.3
-
- 更高版本
CDP的HDFS,Hive,HBase,Spark,Kafka和Solr等元件版本較新
-
- 更多元件
-
- 更長時間
-
- 安全合規
CDP的Apache Ranger提供了新的安全功能(動态行過濾和列掩碼)。 同時借助ApacheAtlas,CDP改進了資料資産管理功能,幫助企業實作PCI和GDPR标準
-
- 更高擴充
Apache Hadoop Ozone是一個分 布式KV存儲,旨在實作數十億個規 模的檔案擴充,遠遠超過目前 Namenode檔案上限(300M) 。同時,Ozone能與HDFS共享資料節點實作無縫遷移
-
- 更易管理
CM7.1支援在cgroup中直接啟用新配置。而在C6中必須重新啟動叢集才能更新cgroup配置。另外,CDP的ZK新版本修複了與jackson-databind、Jetty、log4j相關的17個安全漏洞
-
- 新Hive3體驗
Hive on Tez提供更好的ETL性能,同時支援ACID,極大簡化事務處理,相容ANSI SQL 2016标準。另外,Data Analytics Studio能夠可視化展示HiveSQL對應的DAG分解圖
-
- 新Spark體驗
CDP預裝Spark 2.4.5,同時支援并行安裝Spark3.0。 可以體驗Spark SQL自适應執行和動态分區裁剪等功能
-
- 新的隊列管理
CDP的YARNQueue Manager使用Capacity Scheduler,支援GPU、Node Labels、Globalscheduling,同時采取更加靈活的placement Policy
-
- 多種部署方式:支援公有雲/本地部署,混合雲/多雲部署
CDP公有雲應用場景
現代資料庫
營運資料庫
準實時分析
流式處理和分析
更新現有叢集
選項A
步驟1:将現有叢集更新到CDP PVC Base,進而基于現有資料建立SDX環境
步驟2:安裝CDP私有雲并使用“體驗”建構新應用程式
步驟3:使用工作負載管理器将關鍵工作負載從CDP資料中心版群集智能遷移到CDP私有雲體驗
選項B
步驟1:在新硬體上安裝CDP資料中心,并使用Replication Manager從現有群集中複制資料、中繼資料和政策以建立SDX環境
步驟3:使用工作負載管理器将關鍵工作負載從CDH/HDP叢集智能遷移到CDP私有雲體驗
⭐點選回放連結,直接觀看視訊回放~
點選連結參與
阿裡雲CDP限時免費測試啦~
https://survey.aliyun.com/apps/zhiliao/owtTaIQU3釘釘掃描下方二維碼加入阿裡雲 Cloudera 企業資料雲交流群一起參與讨論吧!