本案例是基于阿裡雲上的datahub收集營銷資料,并通過maxcompute對營銷資料進行分析。下面主要介紹如何用datahub收集營銷資料,以及在maxcompute中如何對資料進行分析。
1 datahub采集資料
阿裡雲的datahub提供了接口可将項目中産生的資料同步到datahub中,并實時同步到maxcompute項目對應的表中。下面介紹如何利用datahub收集資料。
1.1 建立項目

點選建立project按鈕,可建立項目,視窗如下:
輸入名稱和描述之後點選建立可建立一個項目,重新整理後會出現在項目清單中。點選檢視可設定項目的各種資訊。
1.2 建立topic
點選項目後的檢視按鈕,進入如下頁面:
建立topic設定同步資料到maxcompute的資料表中。點選建立topic,彈出頁面如下:
有兩種建立方式,直接建立和導入maxcompute表結構。第一種方式需要自己填寫表結構,比較麻煩,如果在maxcompute中已經建立好了表,推薦使用導入maxcompute表結構。按提示填寫完資訊即可建立成功(提示:備注也要寫,否則建立按鈕不可點選)。建立完成後會出現在topic清單中。
此時在datahub中的配置已經完成,點選topic後面的檢視可檢視配置的各種資訊。如下圖:
點選第二張圖檔connectors中的檢視,彈出如下頁面:
重新開機歸檔和暫停歸檔可設定是否将datahub中的資料同步到maxcompute中。
注:建立topic的時候會設定生命周期,如生命周期為三天,表示datahub隻儲存三天的資料。超過三天的資料會被删除,且不可恢複。是以需經常看看datahub是否因未知的原因而歸檔失敗了。因為當歸檔失敗時,datahub沒有失敗自動重新開機的功能,此時會一直處于失敗狀态,資料無法歸檔到maxcompute中,超過三天資料會丢失(也可将生命周期設定的長一些)。
1.3 資料采集
datahub中提供了很多工具将本地項目中的資料同步到datahub中。提供的工具如下:
點選需要用的工具即可進入幫助文檔頁面,按幫助文檔的步驟進行操作即可。
2 利用maxcompute進行資料分析
用maxcompute進行資料分析,首先需要建立odps項目,其産品名如下:
建立成功後的頁面如下:
點選項目清單中的項目名即可進入項目空間(需操作不同項目空間的表需要再表前加上項目名,用“.”連接配接)。項目空間如下:
任務開發:可建立一些定時任務,定時運作一些資料同步任務、機器學習實驗、sql語句等。
腳本開發:可寫一些sql語句對項目空間的表進行分析。
函數管理:提供了一些系統自帶的函數。
表查詢:可檢視maxcompute中的所有表,檢視表結構及預覽部分資料。
下面介紹一下本案例的營銷報告所做的工作,主要是建立一個任務,在任務中添加一些sql語句節點,定時每天跑這些任務。
2.1 建立任務
點選建立,出現如下頁面:
點選建立任務,出現如下頁面:
分為工作流任務和節點任務,節點任務有如圖所示的幾種任務類型,顧名思義,節點任務就是隻能執行一種任務類型的一個任務。而工作流任務是将節點任務連接配接成一個工作流,可讓多個節點任務一起執行。我們這裡建立工作流任務,其頁面如下:
建立成功後的頁面如下:
左邊提供了節點元件。本案例的營銷報告工作流如下:
滑鼠選擇節點元件,點選右鍵會出現設定節點資訊的菜單,如下:
任務配置完成後,可在右邊的排程配置中配置排程資訊,如下:
各種資訊都設定後之後,點選菜單欄中的儲存、送出即可定時執行任務,菜單欄如下:
其中,測試運作可測試任務配置的是否有問題。
2.2 同步資料到rds資料庫
用maxcompute平台分析後的資料可同步存放到rds資料庫中,然後在本地項目即可擷取分析結果。
2.2.1 建立資料源
同步資料到rds中需要建立資料源,将maxcompute的項目與rds資料庫連通起來。資料源在資料內建中建立,頁面如下:
點選建立資料源按提示建立即可。
2.2.2 建立資料同步任務
在maxcompute的項目空間中建立任務,如下:
此時任務類型選擇資料同步。之後按提示填寫即可。
3 總結
本案例是利用datahub采集營銷資料,然後利用maxcompute對資料定時進行分析,然後同步到rds資料庫中,供本地項目擷取結果。
#maxcompute最佳實踐#