天天看點

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

本手冊為雲栖大會Workshop《雲資料·大計算:快速搭建網際網路線上營運分析平台》的《資料處理:資料模組化與加工》篇而準備。主要闡述在使用DataWorks/MaxCompute過程中如何直讀TableStore中的日志資料并進行加工、使用者畫像,學員可以根據本實驗手冊,去學習如何建立外部表、編寫SQL。

必備條件:

開通大資料計算服務MaxCompute

建立DataWorks項目空間

確定阿裡雲賬号處于登入狀态。
北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
本示例通過建立腳本檔案的方式來建立外部表和内部表兩大部分。MaxCompute計算服務通路 TableStore 資料需要有一個安全的授權通道。在這個問題上,MaxCompute結合了阿裡雲的通路控制服務(RAM)和令牌服務(STS)來實作對資料的安全通路。

step1:點選資料開發,進入資料開發首頁中點選建立腳本。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step2:配置檔案名稱為create_table_ddl,類型選擇為ODPS SQL,點選送出。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step3:編寫DDL建立表語句。

DDL建表語句如下:
彈出關于SQL費用預估的彈窗,在本workshop中可以忽略。

step4:選擇需要執行的SQL語句,點選運作,直至日志資訊傳回成功表示表建立成功。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step4:可以使用desc文法來确認建立表是否成功。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step5:點選儲存,儲存編寫的SQL建表語句。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
建立表方法同上,本小節附建表語句:

上述三張表建立成功後,儲存腳本檔案。

step1:點選建立 > 建立任務。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step2:在建立任務彈出框中,選擇任務類型工作流任務。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

向畫布中拖入三個ODPS SQL節點,依次命名為ods_user_trace_log、dw_user_trace_log、rpt_user_trace_log,并配置依賴關系如下:

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step2:切換至資源管理tab頁,點選上傳按鈕,分别将上述兩個資源檔案進行上傳。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step3:點選選擇檔案,選擇已經下載下傳到本地的getaddr.jar。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step4:點選送出。

ip.dat檔案的上傳方法同上,隻是在選擇類型為file。
北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step5:切換至函數管理tab,點選建立函數按鈕。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step6:資源選擇getaddr.jar和ip.dat,其他配置項如下所示。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
配置項說明如下:

函數名:getregion

類名:odps.test.GetAddr

資源:getaddr.jar和ip.dat

step7:點選送出。

step1:輕按兩下ods_user_trace_log節點,進入節點配置界面,編寫處理邏輯。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
附SQL邏輯如下:

step2:點選儲存。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step3:點選傳回,傳回至工作流開發面闆。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step1:輕按兩下dw_user_trace_log節點,進入節點配置界面,編寫處理邏輯。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
附SQL語句如下:

step1:輕按兩下進入rpt_user_trace_log節點進入配置界面。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
附SQL代碼如下:

step1:點選送出,送出已配置的工作流任務。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step2:在變更節點清單彈出框中點選确定送出。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
送出成功後工作流任務處于隻讀狀态,如下:
北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step1:進入運維中心 > 任務清單 > 周期任務,找到你送出的workshop工作流任務并展開。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step2:右鍵工作流任務名稱,并選擇點選測試,選擇需要執行的業務日期,點選确認。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step3:跳轉至測試執行個體頁面,點選執行個體名稱并展開測試的DAG圖。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step4:可以點選右上角的重新整理按鈕進行檢視節點執行情況,直至所有節點為綠色(執行成功)。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
北京雲栖大會workshop:《資料處理:資料模組化與加工》篇

step1:傳回到create_table_ddl腳本檔案中。

step2:編寫并執行sql語句檢視rpt_user_trace_log資料情況。。

北京雲栖大會workshop:《資料處理:資料模組化與加工》篇
附錄:SQL語句如下。