數加:基于maxcompute之上封裝的便于我們使用和管理maxcompute的一個殼
ecs:阿裡的雲伺服器
tunnelserver:用于和maxcompute上傳下載下傳的資料通道
預設資源:數加提供的用于運作datax的伺服器資源(常用于和maxcompute之間的資料同步),目前隻有在華東2區(上海)有機器
自定義資源:我們提供的用于運作datax的伺服器資源,目前我們隻有華北2區(北京)2台ecs
專線:目前北京機房和北京ecs(華北2區)通專線,簡單了解就是北京機房和北京ecs同屬一個區域網路,讓兩個機房間的通訊更穩定,快速.
端口轉發:簡單的了解,一個網絡端口,轉發到另一個網絡端口上(我們常用的是:從外網的某個端口轉發到内網的某台機器的某個端口,這裡是指從ecs的外網端口,轉發到北京機房的某台機器的某個端口).
maxcompute上傳收費:上傳不收費
maxcompute下載下傳收費:通過公網下載下傳收費,是指maxcompute到datax這個過程,我們在使用自定義資源的時候需在odps那端(reader)要使用<code>"tunnelserver": "http://dt-ext.nu16.odps.aliyun-inc.com",</code>這個配置才能走maxcompute專線,且不收費,預設是走公網需要收費,這點大家要特别注意一下
在使用自定義資源與maxcompute做資料同步任務,務必在odps端加上<code>"tunnelserver": "http://dt-ext.nu16.odps.aliyun-inc.com",</code>配置.免費且能提升同步速度

目前預設資源隻在華東2區有,而我們大部分的資料和機器在北京,隻能通過公網進行資料同步,網絡延遲比較大(33ms),且不穩定,經常出現time out情況.且預設資源會限速,而我們需要上傳的日志量比較大,資料延遲會比較大,不能很好的滿足業務需求.
因為我們北京機房和華北2區有專線連接配接,友善與北京機房的機器做資料同步
華北2區的自定義資源可以通過maxcompute專線(需要在任務裡配置tunnelserver)連接配接maxcompute服務,比通過公網連接配接更穩定,更快.
另一端,自定義資源和北京機房或北京ecs是通過專線或内網連接配接,網絡也比公網更有保障.
如果maxcompute和華東區的ecs的資料同步,請選用預設資源
如果maxcompute和(華北ecs或者北京機房)的資料同步有兩種方式:
通過自定義資源(如果操作見下文)
通過華北ecs做端口轉發:隻需将北京機房對應機器的端口(一般是22端口),轉發到ecs出口的某個端口(例如21222),然後使用預設資源,使用ecs的外網ip和端口就可以了.
對網絡延遲比較敏感的用自定義資源(例如資料要寫到北京ecs或機房上mysql,如果使用預設資源,容易報錯,連接配接逾時)
對網絡延遲不那麼敏感,且資料量不是很大的,可通過端口轉發的方式進行資料同步,通過端口轉發方式能滿足需求的盡量使用這種方式,以免自定義資源負載過高.
項目配置自定義資源組:一個項目隻需要配置一次,而且隻有項目owner才有權限(這個不需要大家操作)
配置資料源:由項目管理者配置(一般來說一台伺服器隻需要配置一次),需要配置資料源伺服器的内網位址,是以datax通過内網位址讀寫,更快速,穩定; 此時不需要測試連接配接,因為測試連接配接是通過預設資源發起的測試,是以網絡不通.
修改任務的資源組:見下圖步驟
運作: 這裡隻對新生成的執行個體生效,例如測試運作或補資料;而之前生成的執行個體,還是會用預設資源,會導緻失敗.
其實使用預設資源也是以上的這些步驟,隻是有些步驟是預設值,不需要更改,例如:
項目配置資源組(數加項目生成的時候,就已經有了預設資源組,不需要我們額外配置)
配置資料源(預設有odps_first,指該odps項目),我們自己的資料源同樣需要配置
編寫資料同步任務(一樣)
修改任務的資源組(預設值是預設資源組,無需修改)
運作資料同步任務(一樣)
在實際使用過程中,出現失敗的話,多思考一下:
資料同步基于datax , 是通過datax到reader資料源抽取資料,在通過writer資料源寫資料,
多思考一下網絡方面的原因:例如防火牆,mysql的白名單,賬号是否有權限等等.