通過DataWorks歸檔日志服務資料至MaxCompute
官方指導文檔:
https://help.aliyun.com/document_detail/68322.html但是會遇到大家在分區上或者DataWorks排程參數配置問題,具體拿到真實的case模拟如下:

建立資料源:
步驟1 進入資料內建,點選作業資料源,進入Tab頁面。
步驟2 點選右上角
新增資料源,選擇消息隊列 loghub。
步驟3 編輯LogHub資料源中的必填項,包括資料源名稱、LogHub
Endpoint、Project、AK資訊等,并點選 測試連通性。
建立目标表:
步驟1 在左側tab也中找到臨時查詢,并右鍵>建立ODPS SQL節點。
步驟2 編寫建表DDL。
步驟3 點選
執行 按鈕進行建立目标表,分别為ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。
步驟4 直到日志列印成本,表示三條DDL語句執行完畢。
步驟5 可以通過desc 檢視建立的表。
其他兩張表也可以通過desc 進行查詢。确認資料表的存在情況。
建立資料同步任務
資料源端以及在DataWorks中的資料源連通性都已經配置好,接下來就可以通過資料同步任務進行采集資料到MaxCompute上。
操作步驟
步驟1 點選
建立業務流程 并 确認送出,名稱為 直播日志采集。
步驟2 在業務流程開發面闆中依次建立如下依賴并命名。
依次配置資料同步任務節點配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。
步驟3 輕按兩下
web_tracking_log_syn 進入節點配置,配置項包括資料源(資料來源和資料去向)、字段映射(源頭表和目标表)、通道控制。
根據采集的時間視窗自定義參數為:
當然其消費點位也可以按照自定義設定5分鐘排程一次,從00:00到23:59,startTime=$[yyyymmddhh24miss-10/24/60]系統前10分鐘到
endTime=$[yyyymmddhh24miss-5/24/60]系統前5分鐘時間(注意與上圖消費資料定位不同),那麼應該配置為ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。
步驟4 可以點選進階運作進行測試。
可以分别手工收入自定義參數值進行測試。
步驟3 使用SQL腳本确認是否資料已經寫進來。如下圖所示:
日志服務的日志正式的被采集入庫,接下來就可以進行資料加工。
比如可以通過上述來統計熱門房間、地域分布和卡頓率,如下所示:
具體SQL邏輯不在這裡展開,可以根據具體業務需求來統計分析。依賴關系配置如上圖所示。
歡迎入群進行産品資料擷取以及擷取幫助: