引言
DataWorks提供了三種資源組的能力:獨享資源組、自定義資源組和預設資源組,很多開發者在使用資源組時經常會碰到各類情況,到時候任務運作失敗或者延遲,例如:
1. 正在使用預設資源組,任務經常要等待
2.購買錯了資源組類型(獨享資料內建資源組與獨享排程資源組),使用不了
3.購買錯了地域(杭州開通DataWorks購買了北京的資源組)
4.沒買錯資源組類型,也沒買錯地域,當天還是用不了
通過本篇文章,為您介紹三種資源組的使用場景、使用方式等;下圖描述了整個任務在運作過程中不同類型使用的資源組的流程;

排程有三種資源組:預設、獨享、自定義;DataWorks中的資料內建也有同樣的三種資源組:預設、獨享、自定義;資料內建的同步資源管理複用排程系統資源管理系統,在使用DataWorks的時候,如果需要使用資料內建任務,那麼需要區分開排程和資料內建2種資源組的概念;
預設資源組
預設資源組是DataWorks在租戶開始使用時候就給每個租戶頒發的資源組了,租戶内所有項目共享,不需要任何配置、操作就可以運作任務;但是該預設資源組需要說明節點:
- 使用場景:
- 預設資源組是在租戶購買了DataWorks時候就會預設建立的,可以支援使用者在頁面進行資料開發、運作測試等能力,目前是免費支援的;
- 任務量相對較少,或者相對來說對任務時效性要求不高的場景
- 提供的能力
- 支援所有的任務類型,但不支援:
- 需要公網通路外部服務,且需要白名單的不支援;
- 需要通路VPC的任務不支援
- 需要通路公網的也不建議使用,建議切換其他資源組使用;
- 任務安全沙箱的能力
- 支援所有的任務類型,但不支援:
- 注意事項
- 預設資源組最大排程資源是有固定配置設定的預設大小的;所有租戶下項目共享,會存在項目之間的資源搶占,不能100%保障任務按時獲得資源運作;
- 預設資源組是在平台的公共叢集下的,所有租戶都共享該叢集資源,是以在高峰期會存在租戶之間的資源搶占,不能100%保障任務按時獲得資源運作;
- 費用
- 按量付費(執行個體費用、同步程序費用等)
獨享資源組
目前DataWorks的獨享資源組提供了2種:獨享排程資源組和獨享資料內建資源組,在此處為了更好的了解為什麼需要2種資源組的方式,可以将獨享資料內建資源組了解為MaxCompute的計算資源概念,因為資料內建隸屬于DataWorks産品内,是以在同步資源是跟排程資源在一起購買的;可以參考引言中的圖;
一、獨享排程資源組
(1)資訊說明
- 版本要求:無
- 類型:
- 獨享排程資源組
- 獨享資料內建資源組
- 使用場景
- 推薦隻要生産任務都使用獨享資源組
- 資源可随時調配
- 任務産出可得到保障
- 任務量大、且對任務時效性要求高的場景必須使用獨享
- 需要通路公網位址、通路VPC位址,請使用獨享
- 通路目的端服務,需要配置白名單的場景,請使用獨享
- 自己VPC與IDC已經打通,任務需要通路IDC的,可使用獨享解決網絡問題;
- 推薦隻要生産任務都使用獨享資源組
-
- 獨享目前不能支援跨租戶節點、機器學習任務;其餘支援
- 購買獨享資源組的時候,務必要注意購買與自己VPC在同一個可用區
- 切換任務資源組的時候:
- 注意每種任務類型都需要測試驗證:網絡是否已經打通
- 費用:
- 排程:相對預設資源組,如果執行個體超過500個,獨享資源會相對便宜很多;不收取執行個體費用,僅資源費用;
(2)如何修改任務運作到獨享排程資源組
特别特别注意:
1、在運維中心任務修改資源組周期任務是需要第二天才會生效,及時生效可以通過測試或者補資料運作即可;
2、__一定要先單個測試在批量修改,__一定要先單個測試在批量修改,__一定要先單個測試在批量修改
3、如果有網絡打通的,優先将網絡打通,可以在測試的時候驗證出來的;
詳細操作步驟:
- step1:購買獨享資源組
- 說明:一般按照實際的任務并發數來購買對應的資源數量,可以參考: https://help.aliyun.com/document_detail/125776.html?spm=a2c4g.11186623.6.573.20a87b75cx5tkl 裡面的場景三
- 購買指引: https://help.aliyun.com/document_detail/121526.html?spm=a2c4g.11174283.6.641.4b1c2b65Y7CSE8
- 登入管控台:目前需要有主賬戶權限或者已經授權過的子賬戶
- 打開頁面,點選“新增獨享資源組”
任務不再等待!玩轉DataWorks資源組 - 新增頁面,選擇“獨享排程資源組”:
-
任務不再等待!玩轉DataWorks資源組 - 點選購買連結,去購買:此處特别建議:至少購買2台(做容災保障,Failover的能力)
-
任務不再等待!玩轉DataWorks資源組 - 購買完畢後,就可以傳回在控制台剛才的建立頁面,選擇訂單号了:
- 然後選擇可用區:特别特别注意:可用區需要跟您的VPC在一個可用區:(就是你的任務是否需要通路VPC位址,比如通路ads、adb等,就需要跟次VPC在一個可用區)如果沒有可用,提工單!
- step2:購買成功後,大概需要等待5分鐘左右,資源組即可建立完畢;【需要點選重新整理按鈕,不會主動重新整理】
- step3:将資源組配置設定到需要的項目中使用,點選:“修改歸屬空間”,點選确定接口
- step4:指定完畢項目空間後,就可以切換到運維中心去修改任務資源組了;
- step5:打開運維中心,切換到指定項目下,比如此處上述資源組配置設定到了monitor_prj項目中,到該項目的到周期任務中,選擇需要修改的,點選下方有個更多裡面有個修改資源組;
特别特别注意:虛節點、工作流、機器學習等任務類型不要選擇上,因為這些不支援資源組修改;
->
- step6:修改完畢資源組後,可以點選任務詳情,檢視屬性,就可以看到任務的資源組資訊:
- step7:測試驗收:
- 任務資源組修改完畢後,可以進行測試、補資料運作,任務就會運作到目前的資源組上,可以通過檢視日志判斷任務是否已經在獨享資源組上:
->
- 任務運作成功,在看下日志了,是否都OK的,就說明該任務運作到獨享資源組上沒有什麼問題;
- step8:批量修改同一種任務類型的任務切換到該資源組上:
- 過濾節點類型
- 全選
以上,就完成了将任務遷移到獨享資源組運作的操作了;
二、獨享資料內建資源組
(一)資訊說明
-
- 推薦隻要生産任務都使用獨享資料內建資源組
- 推薦隻要生産任務都使用獨享資料內建資源組
-
- 如果資料源是經典網絡的,不可遷移到獨享,因為獨享是VPC的
(二)如何修改任務運作到獨享資料內建資源組
寫在最前面:
1、一定要先單個測試在批量修改,一定要先單個測試在批量修改,一定要先單個測試在批量修改
2、如果有網絡打通的,優先将網絡打通,可以在測試的時候驗證出來的;
3、獨享資料內建資源組是在資料開發頁面修改送出,釋出後是及時生效的;
- step1:購買建立、配置設定流程:同獨享排程資源組是一緻的,注意一點就是規格問題:簡單了解多大記憶體就允許多大并發
- step2:修改任務到獨享資料內建資源組,登入到對應項目空間的資料開發頁面,找到你的同步任務,打開編輯:
- 通過向導模式配置任務時,在通道控制 > 任務資源組下拉框中,選擇相應的獨享資料內建資源。
任務不再等待!玩轉DataWorks資源組 - 通過腳本模式配置任務時,單擊右上角的配置任務資源組,在任務資源組下拉框中,選擇相應的獨享資料內建資源。
任務不再等待!玩轉DataWorks資源組
- 通過向導模式配置任務時,在通道控制 > 任務資源組下拉框中,選擇相應的獨享資料內建資源。
- step3:任務資源組修改完畢後,儲存,送出;釋出後,一樣的,在運維中心進行測試或者補資料運作,就可以驗證是否測試通過
- step4:目前資料內建資源組的修改無法支援批量修改,隻能按照上述方法,逐一任務修改!
三、專有網絡綁定
-
- 當配置的任務需要通路自己VPC内的位址的時候,就需要做VPC之間的網絡打通,比如需要通路adb的vpc,那就必須要做這一步
- 如果你的VPC跟你的IDC已經專線打通,那也可以通過此功能将獨享與你的idc打通,可以支援任務運作,不過此操作需要平台支援
- 前提條件
- 建立的獨享資源組與自己VPC在一個可用區
- 如果不在一個可用區:建議重新購買建立;若無法重新建立則隻能提工單需求!
- 操作步驟
- step1:打開控制資源組清單,找到獨享資源組->專有網絡綁定
- step2:點選後,需要授權使用,點選授權即可
- step3:選擇需要綁定的資源組,點選 新增綁定:
- step4:填寫對應的自己VPC下的資訊:
- 特别注意:選擇VPC、交換機、安全組都是你目的端要通路的雲産品執行個體所在的
- 如果沒有交換機或者安全組,可點選建立(注意建立的時候都要在該可用區下)
- step5:如果你的雲産品執行個體需要配置白名單的話:綁定成功後,回到獨享資源組清單,點選 檢視資訊:
- 會有eip、網段,需要将此2個IP和ip段作為白名單清單添加到你對應的雲産品執行個體的IP白名單清單中;
- 同時,需要将自己雲産品執行個體所在的交換機網段(内網網段)也添加到自己的白名單IP清單中
- 特别特别注意:如果您的MaxCompute開啟的IP白名單,任務切換到了獨享資源組後,發現白名單問題,請提工單,由平台方提供IP清單添加
四、運維助手
-
- 解決一些資源包沒有安裝的問題,使用者可以自己操作安裝;比如python的三方包
- 一些特殊腳本固定使用
- 注意點
- 固定安裝目錄
- 使用方式: https://help.aliyun.com/document_detail/144824.html?spm=a2c4g.11186623.6.667.43507e023eJc8C
自定義資源組
- 版本要求:
- 自定義排程資源組:企業版及以上,需要提工單白名單開放
- 自定義資料內建資源組:專業版及以上
- 解決的場景:
- 網絡問題:做資料同步需要通路自己IDC的
- 環境因數:比如依賴了python高版本、jdk環境等等,可以使用一台環境滿足的ecs作為自定義資源
- 搬站:一些客戶本地以及有工作流任務開發在運作了,期望可以減少搬站遷移的工作量,可以還是将任務直接排程到自己的伺服器上,減少代碼腳本的遷移;
-
- 隻能支援資料內建任務和shell任務
- 操作使用:
- 自定義資料內建資源組,參考此處: https://help.aliyun.com/document_detail/136934.html?spm=a2c4g.11186623.6.719.8b745b35mv5nrp
- 自定義排程資源組:
- step1:提工單申請,企業版更新;
- step2:DataWorks控制台打開,先建立資源組:
- step3:建立資源組後,在點選 伺服器管理,添加伺服器,特别特别注意,**此步驟最容易出錯:**
- **網絡類型:隻能支援專有網絡;**
- **UUID:必須使用UUID方式添加,UUID擷取方法:執行`dmidecode | grep UUID`,取傳回值**
- **IP:機器的内網IP,可以登入機器:hostname -i接口或得**
- step4: 服務添加完畢後,回到自定義資源組頁面,重新整理按鈕,點選 伺服器初始化,按照初始化流程,登入到ECS操作
- step5:伺服器操作完畢後,可以到頁面等待10分鐘,觀察伺服器狀态正常即可;
- 修改任務到自定義資源組流程跟獨享一樣
- 排程資源組:運維中心修改
- 資料內建:編輯開發頁面修改,需要送出釋出