
1.場景描述
本文介紹離線大資料場景使用MaxCompute建構雲上近實時數倉,打通雲下資料上雲鍊路,解決資料複雜類型支援和動态分區問題,滿足進階資料處理需求的最佳實踐。
2.解決問題
- 混合雲環境下,現有業務系統零改造,打通資料上雲鍊路。
- 使用UDF實作複雜資料類型轉換和資料動态分區。
- 使用DataWorks配置周期排程業務流程,資料自動入倉。
- 借助MaxCompute優化計算引擎,實作降本增效。
3.部署架構圖
圖1:部署架構示意圖
4.選用的産品
- 雲伺服器ECS:Elastic Compute Service,簡稱ECS,是一種簡單高效、處理能力可彈性伸縮的計算服務。詳見: https://www.aliyun.com/product/ecs 。
- 專有網絡VPC:Virtual Private Cloud,簡稱VPC,- 是基于阿裡雲建立的自定義私有網絡,不同的專有網絡之間二層邏輯隔離。您可以在自己建立的專有網絡内建立和管理雲産品執行個體,比如ECS、負載均衡、RDS等。在部署雲資源前,您需要結合具體業務,規劃VPC和交換機的數量及網段等。詳見: https://www.aliyun.com/product/vpc
- 通路控制RAM:是阿裡雲提供的管理使用者身份與資源通路權限的服務。詳見: https://www.aliyun.com/product/ram
- E-MapReduce EMR:是建構在阿裡雲雲伺服器ECS 上的開源Hadoop、Spark、HBase、Hive、Flink 生态大資料PaaS 産品。提供使用者在雲上使用開源技術建設資料倉庫、離線批處理、線上流式處理、即時查詢、機器學習等場景下的大資料解決方案。詳見: https://www.aliyun.com/product/emapreduce
- 大資料計算服務MaxCompute:是一項大資料計算服務,它能提供快速、完全托管的PB級資料倉庫解決方案,使您可以經濟并高效地分析處理海量資料。詳見: https://www.aliyun.com/product/odps
- 資料總線DataHub:是阿裡雲提供的流式資料(Streaming Data)服務,它提供流式資料的釋出(Publish)和訂閱(Subscribe)的功能,讓您可以輕松建構基于流式資料的分析和應用。詳見: https://www.aliyun.com/product/datahub
- DataWorks:是一個提供了大資料OS能力、并以all in one box的方式提供專業高效、安全可靠的一站式大資料智能雲研發平台。同時能滿足使用者對資料治理、品質管理需求,賦予使用者對外提供資料服務的能力。詳見: https://www.aliyun.com/product/bigdata/ide
5.詳細資訊
- 點選 這裡 ,檢視大資料近實時資料投遞MaxCompute最佳實踐詳情。
6.更多更佳實踐
我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。