
1.場景描述
- 自建資料湖與雲數倉的融合解決方案,MaxCompute與自建的Hive叢集做資料打通,通過存儲共享,中繼資料鏡像等方式,解決傳統模式下的存儲備援,計算資源彈性能力弱的痛點。可大幅度增強系統的資源彈性,解決業務高峰期計算資源不足的問題。
2.方案優勢
- 業務無侵入性:現有業務無需改造。
- 性能優化:MaxCompute在SQL上做了大量優化與能力沉澱,可提高SQL運作性能,降低計算成本。
- 靈活管理:中繼資料實時同步,無需額外管理資料同步任務。
- 資源彈性:利用MaxCompute計算池彈性進行海量資料計算。
3.部署架構圖
4.選用的産品
- VPC:專有網絡VPC(Virtual Private Cloud)是使用者基于阿裡雲建立的自定義私有網絡, 不同的專有網絡之間二層邏輯隔離,使用者可以在自己建立的專有網絡内建立和管理雲産品執行個體,比如ECS、負載均衡、RDS等。更多資訊,請參見:www.aliyun.com/product/vpc
- ECS:雲伺服器ECS(Elastic Compute Service)是一種簡單高效、處理能力可彈性伸縮的計算服務。幫助您建構更穩定、安全的應用,提升運維效率,降低IT成本,使您更專注于核心業務創新。更多資訊,請參見:www.aliyun.com/product/ecs
- OOS:運維編排服務(Operation Orchestration Service,簡稱OOS)能夠自動化管理和執行運維任務。在待執行模版中,您可定義運維任務、執行流程、執行的輸入和輸出等,然後僅需執行模版即可實作自動化運維。
- MaxCompute:MaxCompute(原ODPS)是一項大資料計算服務,它能提供快速、完全托管的PB級資料倉庫解決方案,使您可以經濟并高效的分析處理海量資料。更多資訊,請參見:www.aliyun.com/product/odps
- CEN:雲企業網(Cloud Enterprise Network)幫助您在VPC間,VPC與本地資料中心間搭建私網通信通道,通過自動路由分發及學習,提高網絡的快速收斂和跨網絡通信的品質和安全性,實作全網資源的互通,幫助您打造一張具有企業級規模和通信能力的網際網路絡。
- HDFS:Hadoop分布式檔案系統(HDFS)被設計成适合運作在通用硬體上的分布式檔案系統,它和現有的分布式檔案系統有很多共同點。但同時,它和其他的分目錄布式檔案系統的差別也是很明顯的。HDFS是一個高度容錯性的系統,适合部署在廉價的機器上。HDFS能提供高吞吐量的資料通路,非常适合大規模資料集上的應用。
- Apache Hive:Apache Hive是基于Hadoop的一個資料倉庫工具,可以将結構化的資料檔案映射為一張資料庫表,并提供簡單的SQL查詢功能,可以将SQL語句轉換為MapReduce任務進行運作。其優點是學習成本低,可以通過類SQL語句快速實作簡MapReduce統計,不必開發專門的MapReduce應用,十分适合資料倉庫的統計分析。
- ZooKeeper:ZooKeeper是一個分布式的,開放源碼的分布式應用程式協調服務,是Google的Chubby一個開源的實作,是Hadoop和Hbase的重要元件。它是一個為分布式應用提供一緻性服務的軟體,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。
5.詳細資訊
- 點選 這裡 ,檢視MaxCompute湖倉一體方案最佳實踐詳情。
6.更多更佳實踐
我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。