天天看點

大資料近實時資料投遞MaxCompute

大資料近實時資料投遞MaxCompute

1.場景描述

本文介紹離線大資料場景使用MaxCompute建構雲上近實時數倉,打通雲下資料上雲鍊路,解決資料複雜類型支援和動态分區問題,滿足進階資料處理需求的最佳實踐。

2.解決問題

  • 混合雲環境下,現有業務系統零改造,打通資料上雲鍊路。
  • 使用UDF實作複雜資料類型轉換和資料動态分區。
  • 使用DataWorks配置周期排程業務流程,資料自動入倉。
  • 借助MaxCompute優化計算引擎,實作降本增效。

3.部署架構圖

大資料近實時資料投遞MaxCompute

圖1:部署架構示意圖

4.選用的産品

  • 雲伺服器ECS:Elastic Compute Service,簡稱ECS,是一種簡單高效、處理能力可彈性伸縮的計算服務。詳見: https://www.aliyun.com/product/ecs
  • 專有網絡VPC:Virtual Private Cloud,簡稱VPC,- 是基于阿裡雲建立的自定義私有網絡,不同的專有網絡之間二層邏輯隔離。您可以在自己建立的專有網絡内建立和管理雲産品執行個體,比如ECS、負載均衡、RDS等。在部署雲資源前,您需要結合具體業務,規劃VPC和交換機的數量及網段等。詳見: https://www.aliyun.com/product/vpc
  • 通路控制RAM:是阿裡雲提供的管理使用者身份與資源通路權限的服務。詳見: https://www.aliyun.com/product/ram
  • E-MapReduce EMR:是建構在阿裡雲雲伺服器ECS 上的開源Hadoop、Spark、HBase、Hive、Flink 生态大資料PaaS 産品。提供使用者在雲上使用開源技術建設資料倉庫、離線批處理、線上流式處理、即時查詢、機器學習等場景下的大資料解決方案。詳見: https://www.aliyun.com/product/emapreduce
  • 大資料計算服務MaxCompute:是一項大資料計算服務,它能提供快速、完全托管的PB級資料倉庫解決方案,使您可以經濟并高效地分析處理海量資料。詳見: https://www.aliyun.com/product/odps
  • 資料總線DataHub:是阿裡雲提供的流式資料(Streaming Data)服務,它提供流式資料的釋出(Publish)和訂閱(Subscribe)的功能,讓您可以輕松建構基于流式資料的分析和應用。詳見: https://www.aliyun.com/product/datahub
  • DataWorks:是一個提供了大資料OS能力、并以all in one box的方式提供專業高效、安全可靠的一站式大資料智能雲研發平台。同時能滿足使用者對資料治理、品質管理需求,賦予使用者對外提供資料服務的能力。詳見: https://www.aliyun.com/product/bigdata/ide

5.詳細資訊

  • 點選 這裡 ,檢視大資料近實時資料投遞MaxCompute最佳實踐詳情。

6.更多更佳實踐

  • ,檢視更多阿裡雲最佳實踐。

我們是阿裡雲智能全球技術服務-SRE團隊,我們緻力成為一個以技術為基礎、面向服務、保障業務系統高可用的工程師團隊;提供專業、體系化的SRE服務,幫助廣大客戶更好地使用雲、基于雲建構更加穩定可靠的業務系統,提升業務穩定性。我們期望能夠分享更多幫助企業客戶上雲、用好雲,讓客戶雲上業務運作更加穩定可靠的技術,您可用釘釘掃描下方二維碼,加入阿裡雲SRE技術學院釘釘圈子,和更多雲上人交流關于雲平台的那些事。

大資料近實時資料投遞MaxCompute