本手冊為阿裡雲mvp meetup workshop《雲計算·大資料:海量日志資料分析與應用》的《資料加工:使用者畫像》篇而準備。主要闡述在使用大資料開發套件過程中如何将已經采集至maxcompute上的日志資料進行加工并進行使用者畫像,學員可以根據本實驗手冊,去學習如何建立sql任務、如何處理原始日志資料。
必備條件:
開通大資料計算服務maxcompute
建立大資料開發套件項目空間
確定阿裡雲賬号處于登入狀态。
step2:點選已經建立的項目空間名稱,進入大資料開發套件。
若在實驗《資料采集:日志資料上傳》中已經建立腳本檔案,可以直接切換至腳本開發tab下,輕按兩下打開create_table_ddl腳本檔案。若無建立腳本檔案可通過如下詳細步驟進行建立腳本檔案。
step1:點選資料開發,進入資料開發首頁中點選建立腳本。
step2:配置檔案名稱為create_table_ddl,類型選擇為odps sql,點選送出。
step3:編寫ddl建立表語句。
ddl建表語句如下:
step4:選擇需要執行的sql語句,點選運作,直至日志資訊傳回成功表示表建立成功。
step5:可以使用desc文法來确認建立表是否成功。
step6:點選儲存,儲存編寫的sql建表語句。
建立表方法同上,本小節附建表語句:
上述三張表建立成功後,儲存腳本檔案。
若成功完成實驗《資料采集:日志資料上傳》,即可切換至任務開發tab中,輕按兩下打開workshop工作流任務。
向畫布中拖入三個odps sql節點,依次命名為ods_log_info_d、dw_user_info_all_d、rpt_user_info_d,并配置依賴關系如下:
若未完成實驗《資料采集:日志資料上傳》篇,可通過進入檢視如何建立工作流任務。
step2:切換至資源管理tab頁,點選上傳按鈕。
step3:點選選擇檔案,選擇已經下載下傳到本地的ip2region.jar。
step4:點選送出。
step5:切換至函數管理tab,點選建立函數按鈕。
step6:資源選擇ip2region.jar,其他配置項如下所示。
配置項說明如下:
函數名:getregion
類名:org.alidata.odps.udf.ip2region
資源:ip2region.jar
step7:點選送出。
step1:輕按兩下ods_log_info_d節點,進入節點配置界面,編寫處理邏輯。
附sql邏輯如下:
step2:點選儲存。
step3:點選傳回,傳回至工作流開發面闆。
step1:輕按兩下dw_user_info_all_d節點,進入節點配置界面,編寫處理邏輯。
附sql語句如下:
step1:輕按兩下進入rpt_user_info_d節點進入配置界面。
附sql代碼如下:
step1:點選送出,送出已配置的工作流任務。
step2:在變更節點清單彈出框中點選确定送出。
送出成功後工作流任務處于隻讀狀态,如下:
鑒于在資料采集階段已經測試了資料同步任務,本節中直接測試下遊sql任務即可,也保證了時效性。
step1:進入運維中心 > 任務清單,找到workshop工作流任務。
step2:單擊名稱展開工作流。
![進入節點試圖]
step3:選中ods_log_info_d節點,單擊補資料。
![選擇補資料節點]
step4:在補資料節點對話框中全選節點名稱,選擇業務日期,點選運作選中節點。
自動跳轉到補資料任務執行個體頁面。
step5:輸入字母‘d’,通過過濾條件重新整理,直至sql任務都運作成功即可。
step1:傳回到create_table_ddl腳本檔案中。
step2:編寫并執行sql語句檢視rpt_user_info_d資料情況。。
附錄:sql語句如下。