天天看點

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

本手冊為阿裡雲mvp meetup workshop《雲計算·大資料:海量日志資料分析與應用》的《資料加工:使用者畫像》篇而準備。主要闡述在使用大資料開發套件過程中如何将已經采集至maxcompute上的日志資料進行加工并進行使用者畫像,學員可以根據本實驗手冊,去學習如何建立sql任務、如何處理原始日志資料。

必備條件:

開通大資料計算服務maxcompute

建立大資料開發套件項目空間

確定阿裡雲賬号處于登入狀态。
大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step2:點選已經建立的項目空間名稱,進入大資料開發套件。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
若在實驗《資料采集:日志資料上傳》中已經建立腳本檔案,可以直接切換至腳本開發tab下,輕按兩下打開create_table_ddl腳本檔案。若無建立腳本檔案可通過如下詳細步驟進行建立腳本檔案。

step1:點選資料開發,進入資料開發首頁中點選建立腳本。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step2:配置檔案名稱為create_table_ddl,類型選擇為odps sql,點選送出。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step3:編寫ddl建立表語句。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
ddl建表語句如下:

step4:選擇需要執行的sql語句,點選運作,直至日志資訊傳回成功表示表建立成功。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step5:可以使用desc文法來确認建立表是否成功。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step6:點選儲存,儲存編寫的sql建表語句。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
建立表方法同上,本小節附建表語句:

上述三張表建立成功後,儲存腳本檔案。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

若成功完成實驗《資料采集:日志資料上傳》,即可切換至任務開發tab中,輕按兩下打開workshop工作流任務。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

向畫布中拖入三個odps sql節點,依次命名為ods_log_info_d、dw_user_info_all_d、rpt_user_info_d,并配置依賴關系如下:

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
若未完成實驗《資料采集:日志資料上傳》篇,可通過進入檢視如何建立工作流任務。

step2:切換至資源管理tab頁,點選上傳按鈕。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step3:點選選擇檔案,選擇已經下載下傳到本地的ip2region.jar。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step4:點選送出。

step5:切換至函數管理tab,點選建立函數按鈕。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step6:資源選擇ip2region.jar,其他配置項如下所示。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
配置項說明如下:

函數名:getregion

類名:org.alidata.odps.udf.ip2region

資源:ip2region.jar

step7:點選送出。

step1:輕按兩下ods_log_info_d節點,進入節點配置界面,編寫處理邏輯。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
附sql邏輯如下:

step2:點選儲存。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step3:點選傳回,傳回至工作流開發面闆。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step1:輕按兩下dw_user_info_all_d節點,進入節點配置界面,編寫處理邏輯。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
附sql語句如下:

step1:輕按兩下進入rpt_user_info_d節點進入配置界面。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
附sql代碼如下:

step1:點選送出,送出已配置的工作流任務。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step2:在變更節點清單彈出框中點選确定送出。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
送出成功後工作流任務處于隻讀狀态,如下:
大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
鑒于在資料采集階段已經測試了資料同步任務,本節中直接測試下遊sql任務即可,也保證了時效性。

step1:進入運維中心 > 任務清單,找到workshop工作流任務。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step2:單擊名稱展開工作流。

![進入節點試圖]

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step3:選中ods_log_info_d節點,單擊補資料。

![選擇補資料節點]

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step4:在補資料節點對話框中全選節點名稱,選擇業務日期,點選運作選中節點。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

自動跳轉到補資料任務執行個體頁面。

step5:輸入字母‘d’,通過過濾條件重新整理,直至sql任務都運作成功即可。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇

step1:傳回到create_table_ddl腳本檔案中。

step2:編寫并執行sql語句檢視rpt_user_info_d資料情況。。

大資料workshop:《雲資料·大計算:海量日志資料分析與應用》之《資料加工:使用者畫像》篇
附錄:sql語句如下。