天天看點

阿裡雲大資料開發平台,資料內建平台使用教程

資料內建(Data Integration)是阿裡集團對外提供的可跨異構資料存儲系統的、可靠、安全、低成本、可彈性擴充的資料同步平台,為20+種資料源提供不同網絡環境下的離線(全量/增量)資料進出通道,是阿裡集團對外提供的穩定高效、彈性伸縮的資料同步平台。緻力于提供複雜網絡環境下、豐富的異構資料源之間資料高速穩定的資料移動及同步能力。

關于阿裡雲資料內建平台更多内容:

阿裡雲資料內建平台使用教程

離線(批量)資料同步簡介

離線(批量)的資料通道主要通過定義資料來源和去向的資料源和資料集,提供一套抽象化的資料抽取插件(稱之為 Reader)、資料寫入插件(稱之為 Writer),并基于此架構設計一套簡化版的中間資料傳輸格式,進而達到任意結構化、半結構化資料源之間資料傳輸的目的。

阿裡雲大資料開發平台,資料內建平台使用教程

支援資料源類型

資料內建提供豐富的資料源支援,如下所示:

文本存儲(FTP / SFTP / OSS / 多媒體檔案等)。

資料庫(RDS / DRDS / MySQL / PostgreSQL 等)。

NoSQL(Memcache / Redis / MongoDB / HBase 等)。

大資料(MaxCompute / AnalyticDB / HDFS 等)。

MPP 資料庫(HybridDB for MySQL 等)。

更多詳情請參見

注意:

由于每個資料源的配置資訊差距較大,需要根據使用情況詳細查詢參數配置資訊。是以在資料源配置、作業配置頁面提供了較長的描述,請您根據自身情況進行查詢使用。

同步開發說明

同步開發提供兩種開發模式:向導模式和腳本模式。

1.向導模式:提供向導式的開發引導,通過可視化的填寫和下一步的引導,幫助快速完成資料同步任務的配置工作。向導模式的學習成本低,但無法享受到一些進階功能。

2.腳本模式:您可以通過直接編寫資料同步的 JSON 腳本來完成資料同步開發,适合進階使用者,學習成本較高。腳本模式可以提供更豐富靈活的能力,做精細化的配置管理。

向導模式生成的代碼可以轉換為腳本模式,此轉換為單向操作,轉換完成後無法恢複到向導模式。因為腳本模式能力是向導模式的超集。

代碼編寫前需要完成資料源的配置和目标表的建立。

網絡類型說明

網絡類型分為:經典網絡、專有網絡(VPC)、本地 IDC 網絡(規劃中)。

1.經典網絡:統一部署在阿裡雲的公共基礎網絡内,網絡的規劃和管理由阿裡雲負責,更适合對網絡易用性要求比較高的客戶。

2.專有網絡:基于阿裡雲建構出一個隔離的網絡環境。您可以完全掌控自己的虛拟網絡,包括選擇自有的 IP 位址範圍,劃分網段,以及配置路由表和網關。

3.本地 IDC 網絡:您自身建構機房的網絡環境,與阿裡雲網絡是隔離不可用的。

4.經典網絡和專有網絡相關問題請參見

經典網絡和VPC常見問題FAQ

補充說明:

1.網絡連接配接可以支援公網連接配接,網絡類型選擇經典網絡即可。需要注意公網帶寬的速度和相關網絡費用消耗。無特殊情況不建議使用。

2.規劃中的網絡連接配接,進行資料同步,可以使用本地新增運作資源 + 腳本模式的方案進行資料同步傳輸。或者使用 SHELL + DataX 方案,此方案請參見

使用shell執行datax任務

3.專有網絡 VPC 是建構一個隔離的網絡環境,可以自定義 IP 位址範圍、網段、網關等随着專有網絡安全性提高,專有網絡運用越來越廣,是以資料內建提供了 RDS-MySQL、RDS-SQL Server、RDS-PostgreSQL,在專有網絡下不需要購買一台跟 VPC 同網絡的 ECS,系統通過反向代理會自動檢測進而網絡能夠互通。對于阿裡雲其他的資料庫 PPAS、OceanBase、Redis、MongoDB、Memcache、TableStore、HBase 等,後續也會提供支援。是以非 RDS 的資料源在專有網絡下配置資料內建的同步任務需要購買同網絡的 ECS,這樣可以通過 ECS 連通網絡。

限制與限制

1.支援且僅支援結構化(例如 RDS、DRDS 等)、半結構化、無結構化(OSS、TXT 等,要求具體同步資料必須抽象為結構化資料)的資料同步。換言之,Data Integration 支援傳輸能夠抽象為邏輯二維表的資料同步,其他完全非結構化資料,例如 OSS 中存放的一段 MP3,Data Integration 暫未支援将其同步到 MaxCompute,這個功能會在後期實作。

2.支援單個和部分跨 region 地域内資料存儲互相同步、交換的資料同步需求。

3.部分地域通過經典網絡是可以傳輸的,不能保證。如果必須使用且測試經典網絡不通,可以考慮使用公網方式連接配接。

4.僅完成資料同步(傳輸),本身不提供資料流的消費方式。

繼續閱讀