天天看點

任務不再等待!玩轉DataWorks資源組

引言

DataWorks提供了三種資源組的能力:獨享資源組、自定義資源組和預設資源組,很多開發者在使用資源組時經常會碰到各類情況,到時候任務運作失敗或者延遲,例如:

1. 正在使用預設資源組,任務經常要等待

2.購買錯了資源組類型(獨享資料內建資源組與獨享排程資源組),使用不了

3.購買錯了地域(杭州開通DataWorks購買了北京的資源組)

4.沒買錯資源組類型,也沒買錯地域,當天還是用不了

通過本篇文章,為您介紹三種資源組的使用場景、使用方式等;下圖描述了整個任務在運作過程中不同類型使用的資源組的流程;

任務不再等待!玩轉DataWorks資源組

    排程有三種資源組:預設、獨享、自定義;DataWorks中的資料內建也有同樣的三種資源組:預設、獨享、自定義;資料內建的同步資源管理複用排程系統資源管理系統,在使用DataWorks的時候,如果需要使用資料內建任務,那麼需要區分開排程和資料內建2種資源組的概念;

預設資源組

    預設資源組是DataWorks在租戶開始使用時候就給每個租戶頒發的資源組了,租戶内所有項目共享,不需要任何配置、操作就可以運作任務;但是該預設資源組需要說明節點:

  • 使用場景:
    • 預設資源組是在租戶購買了DataWorks時候就會預設建立的,可以支援使用者在頁面進行資料開發、運作測試等能力,目前是免費支援的;
    • 任務量相對較少,或者相對來說對任務時效性要求不高的場景
  • 提供的能力
    • 支援所有的任務類型,但不支援:
      • 需要公網通路外部服務,且需要白名單的不支援;
      • 需要通路VPC的任務不支援
      • 需要通路公網的也不建議使用,建議切換其他資源組使用;
    • 任務安全沙箱的能力
  • 注意事項
    • 預設資源組最大排程資源是有固定配置設定的預設大小的;所有租戶下項目共享,會存在項目之間的資源搶占,不能100%保障任務按時獲得資源運作;
    • 預設資源組是在平台的公共叢集下的,所有租戶都共享該叢集資源,是以在高峰期會存在租戶之間的資源搶占,不能100%保障任務按時獲得資源運作;
  • 費用
    • 按量付費(執行個體費用、同步程序費用等)

獨享資源組

    目前DataWorks的獨享資源組提供了2種:獨享排程資源組和獨享資料內建資源組,在此處為了更好的了解為什麼需要2種資源組的方式,可以将獨享資料內建資源組了解為MaxCompute的計算資源概念,因為資料內建隸屬于DataWorks産品内,是以在同步資源是跟排程資源在一起購買的;可以參考引言中的圖;

一、獨享排程資源組

(1)資訊說明
  • 版本要求:無
  • 類型:
    • 獨享排程資源組
    • 獨享資料內建資源組
  • 使用場景
    • 推薦隻要生産任務都使用獨享資源組
      • 資源可随時調配
      • 任務産出可得到保障
    • 任務量大、且對任務時效性要求高的場景必須使用獨享
    • 需要通路公網位址、通路VPC位址,請使用獨享
    • 通路目的端服務,需要配置白名單的場景,請使用獨享
    • 自己VPC與IDC已經打通,任務需要通路IDC的,可使用獨享解決網絡問題;
    • 獨享目前不能支援跨租戶節點、機器學習任務;其餘支援
    • 購買獨享資源組的時候,務必要注意購買與自己VPC在同一個可用區
    • 切換任務資源組的時候:
      • 注意每種任務類型都需要測試驗證:網絡是否已經打通
  • 費用:
    • 排程:相對預設資源組,如果執行個體超過500個,獨享資源會相對便宜很多;不收取執行個體費用,僅資源費用;
(2)如何修改任務運作到獨享排程資源組

特别特别注意:

1、在運維中心任務修改資源組周期任務是需要第二天才會生效,及時生效可以通過測試或者補資料運作即可;

2、__一定要先單個測試在批量修改,__一定要先單個測試在批量修改,__一定要先單個測試在批量修改

3、如果有網絡打通的,優先将網絡打通,可以在測試的時候驗證出來的;

詳細操作步驟:

  • step1:購買獨享資源組
    • 說明:一般按照實際的任務并發數來購買對應的資源數量,可以參考: https://help.aliyun.com/document_detail/125776.html?spm=a2c4g.11186623.6.573.20a87b75cx5tkl 裡面的場景三
    • 購買指引: https://help.aliyun.com/document_detail/121526.html?spm=a2c4g.11174283.6.641.4b1c2b65Y7CSE8
    • 登入管控台:目前需要有主賬戶權限或者已經授權過的子賬戶
    • 打開頁面,點選“新增獨享資源組”
      任務不再等待!玩轉DataWorks資源組
    • 新增頁面,選擇“獨享排程資源組”:
    • 任務不再等待!玩轉DataWorks資源組
    • 點選購買連結,去購買:此處特别建議:至少購買2台(做容災保障,Failover的能力)
    • 任務不再等待!玩轉DataWorks資源組
    • 購買完畢後,就可以傳回在控制台剛才的建立頁面,選擇訂單号了:
    • 然後選擇可用區:特别特别注意:可用區需要跟您的VPC在一個可用區:(就是你的任務是否需要通路VPC位址,比如通路ads、adb等,就需要跟次VPC在一個可用區)如果沒有可用,提工單!
任務不再等待!玩轉DataWorks資源組
  • step2:購買成功後,大概需要等待5分鐘左右,資源組即可建立完畢;【需要點選重新整理按鈕,不會主動重新整理】
任務不再等待!玩轉DataWorks資源組
  • step3:将資源組配置設定到需要的項目中使用,點選:“修改歸屬空間”,點選确定接口
任務不再等待!玩轉DataWorks資源組
  • step4:指定完畢項目空間後,就可以切換到運維中心去修改任務資源組了;
  • step5:打開運維中心,切換到指定項目下,比如此處上述資源組配置設定到了monitor_prj項目中,到該項目的到周期任務中,選擇需要修改的,點選下方有個更多裡面有個修改資源組;

特别特别注意:虛節點、工作流、機器學習等任務類型不要選擇上,因為這些不支援資源組修改;

任務不再等待!玩轉DataWorks資源組

  -> 

任務不再等待!玩轉DataWorks資源組
  • step6:修改完畢資源組後,可以點選任務詳情,檢視屬性,就可以看到任務的資源組資訊:
任務不再等待!玩轉DataWorks資源組
任務不再等待!玩轉DataWorks資源組
  • step7:測試驗收:
    • 任務資源組修改完畢後,可以進行測試、補資料運作,任務就會運作到目前的資源組上,可以通過檢視日志判斷任務是否已經在獨享資源組上:
任務不再等待!玩轉DataWorks資源組

 -> 

任務不再等待!玩轉DataWorks資源組
  • 任務運作成功,在看下日志了,是否都OK的,就說明該任務運作到獨享資源組上沒有什麼問題;
  • step8:批量修改同一種任務類型的任務切換到該資源組上:
    • 過濾節點類型
    • 全選
任務不再等待!玩轉DataWorks資源組

以上,就完成了将任務遷移到獨享資源組運作的操作了;

二、獨享資料內建資源組

(一)資訊說明
    • 推薦隻要生産任務都使用獨享資料內建資源組
    • 如果資料源是經典網絡的,不可遷移到獨享,因為獨享是VPC的
(二)如何修改任務運作到獨享資料內建資源組

寫在最前面:

1、一定要先單個測試在批量修改,一定要先單個測試在批量修改,一定要先單個測試在批量修改

2、如果有網絡打通的,優先将網絡打通,可以在測試的時候驗證出來的;

3、獨享資料內建資源組是在資料開發頁面修改送出,釋出後是及時生效的;

  • step1:購買建立、配置設定流程:同獨享排程資源組是一緻的,注意一點就是規格問題:簡單了解多大記憶體就允許多大并發
  • step2:修改任務到獨享資料內建資源組,登入到對應項目空間的資料開發頁面,找到你的同步任務,打開編輯:
  • step3:任務資源組修改完畢後,儲存,送出;釋出後,一樣的,在運維中心進行測試或者補資料運作,就可以驗證是否測試通過
  • step4:目前資料內建資源組的修改無法支援批量修改,隻能按照上述方法,逐一任務修改!

三、專有網絡綁定

    • 當配置的任務需要通路自己VPC内的位址的時候,就需要做VPC之間的網絡打通,比如需要通路adb的vpc,那就必須要做這一步
    • 如果你的VPC跟你的IDC已經專線打通,那也可以通過此功能将獨享與你的idc打通,可以支援任務運作,不過此操作需要平台支援
  • 前提條件
    • 建立的獨享資源組與自己VPC在一個可用區
    • 如果不在一個可用區:建議重新購買建立;若無法重新建立則隻能提工單需求!
  • 操作步驟
    • step1:打開控制資源組清單,找到獨享資源組->專有網絡綁定
任務不再等待!玩轉DataWorks資源組
  • step2:點選後,需要授權使用,點選授權即可
  • step3:選擇需要綁定的資源組,點選 新增綁定:
任務不再等待!玩轉DataWorks資源組
  • step4:填寫對應的自己VPC下的資訊:
    • 特别注意:選擇VPC、交換機、安全組都是你目的端要通路的雲産品執行個體所在的
    • 如果沒有交換機或者安全組,可點選建立(注意建立的時候都要在該可用區下)
任務不再等待!玩轉DataWorks資源組
  • step5:如果你的雲産品執行個體需要配置白名單的話:綁定成功後,回到獨享資源組清單,點選 檢視資訊:
    • 會有eip、網段,需要将此2個IP和ip段作為白名單清單添加到你對應的雲産品執行個體的IP白名單清單中;
    • 同時,需要将自己雲産品執行個體所在的交換機網段(内網網段)也添加到自己的白名單IP清單中
    • 特别特别注意:如果您的MaxCompute開啟的IP白名單,任務切換到了獨享資源組後,發現白名單問題,請提工單,由平台方提供IP清單添加
任務不再等待!玩轉DataWorks資源組

四、運維助手

自定義資源組

  • 版本要求:
    • 自定義排程資源組:企業版及以上,需要提工單白名單開放
    • 自定義資料內建資源組:專業版及以上
  • 解決的場景:
    • 網絡問題:做資料同步需要通路自己IDC的
    • 環境因數:比如依賴了python高版本、jdk環境等等,可以使用一台環境滿足的ecs作為自定義資源
    • 搬站:一些客戶本地以及有工作流任務開發在運作了,期望可以減少搬站遷移的工作量,可以還是将任務直接排程到自己的伺服器上,減少代碼腳本的遷移;
    • 隻能支援資料內建任務和shell任務
  • 操作使用:
任務不再等待!玩轉DataWorks資源組
- step2:DataWorks控制台打開,先建立資源組:
           
任務不再等待!玩轉DataWorks資源組
- step3:建立資源組後,在點選 伺服器管理,添加伺服器,特别特别注意,**此步驟最容易出錯:**
  - **網絡類型:隻能支援專有網絡;**
  - **UUID:必須使用UUID方式添加,UUID擷取方法:執行`dmidecode | grep UUID`,取傳回值**
  - **IP:機器的内網IP,可以登入機器:hostname -i接口或得**
           
任務不再等待!玩轉DataWorks資源組
任務不再等待!玩轉DataWorks資源組
- step4: 服務添加完畢後,回到自定義資源組頁面,重新整理按鈕,點選 伺服器初始化,按照初始化流程,登入到ECS操作
- step5:伺服器操作完畢後,可以到頁面等待10分鐘,觀察伺服器狀态正常即可;           
  • 修改任務到自定義資源組流程跟獨享一樣
    • 排程資源組:運維中心修改
    • 資料內建:編輯開發頁面修改,需要送出釋出