天天看點

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

通過DataWorks歸檔日志服務資料至MaxCompute

官方指導文檔:

https://help.aliyun.com/document_detail/68322.html

但是會遇到大家在分區上或者DataWorks排程參數配置問題,具體拿到真實的case模拟如下:

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

建立資料源:

步驟1      進入資料內建,點選作業資料源,進入Tab頁面。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

步驟2      點選右上角

新增資料源,選擇消息隊列 loghub。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute
通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

步驟3 編輯LogHub資料源中的必填項,包括資料源名稱、LogHub

Endpoint、Project、AK資訊等,并點選 測試連通性。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

建立目标表:

步驟1      在左側tab也中找到臨時查詢,并右鍵>建立ODPS SQL節點。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

步驟2      編寫建表DDL。

步驟3      點選

執行 按鈕進行建立目标表,分别為ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步驟4      直到日志列印成本,表示三條DDL語句執行完畢。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

步驟5      可以通過desc 檢視建立的表。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

其他兩張表也可以通過desc 進行查詢。确認資料表的存在情況。

建立資料同步任務

資料源端以及在DataWorks中的資料源連通性都已經配置好,接下來就可以通過資料同步任務進行采集資料到MaxCompute上。

操作步驟

步驟1      點選

建立業務流程 并 确認送出,名稱為 直播日志采集。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

步驟2      在業務流程開發面闆中依次建立如下依賴并命名。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

依次配置資料同步任務節點配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步驟3      輕按兩下

web_tracking_log_syn 進入節點配置,配置項包括資料源(資料來源和資料去向)、字段映射(源頭表和目标表)、通道控制。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute
通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

根據采集的時間視窗自定義參數為:

當然其消費點位也可以按照自定義設定5分鐘排程一次,從00:00到23:59,startTime=$[yyyymmddhh24miss-10/24/60]系統前10分鐘到

endTime=$[yyyymmddhh24miss-5/24/60]系統前5分鐘時間(注意與上圖消費資料定位不同),那麼應該配置為ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步驟4      可以點選進階運作進行測試。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

可以分别手工收入自定義參數值進行測試。

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

步驟3      使用SQL腳本确認是否資料已經寫進來。如下圖所示:

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

日志服務的日志正式的被采集入庫,接下來就可以進行資料加工。

比如可以通過上述來統計熱門房間、地域分布和卡頓率,如下所示:

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

具體SQL邏輯不在這裡展開,可以根據具體業務需求來統計分析。依賴關系配置如上圖所示。

歡迎入群進行産品資料擷取以及擷取幫助:

通過DataWorks資料內建歸檔日志服務資料至MaxCompute進行離線分析通過DataWorks歸檔日志服務資料至MaxCompute

繼續閱讀