(本文資料為虛構,僅供實驗。本實驗拟在介紹阿裡雲機器學習與大資料開發排程的配合。)
本文實作的場景是廣告的ctr預測。廣告ctr預測是廣告行業的典型應用,通過曆史資料訓練預測模型,對于每天的增量資料進行預測,找出廣告的ctr符合标準的樣本進行投放。
整套實驗使用了阿裡雲機器學習進行資料挖掘工作,通過大資料開發套件進行排程和推送。具體的業務場景是:通過曆史資料在阿裡雲機器學習平台上面訓練模型,通過大資料開發進行排程,每天淩晨對于每天的廣告投放ctr預測,甄選出符合标準的廣告推送出去。
具體字段如下:
字段名
含義
類型
描述
id
string
廣告的唯一辨別
age
年齡
double
廣告投放人群的年齡
sex
性别
廣告投放人群的性别,1是男,0是女
duration
時長
廣告在界面的停留時長,以秒為機關
place
位置
廣告投放位置,0~4,按照投放位置從上到下的順序排列
ctr
廣告ctr
廣告點選量除以展現量,這裡面大于0.03是1,其它是0
dt
partition
年月日格式yyyymmdd
資料截圖:
資料是通過random算法随機生成,是以本次實驗不針對結果進行評估,主要介紹實驗搭建以及和大資料開發套件的排程使用。資料包含20160919、20160920的曆史資料,需要針對20160921的資料預測。使用的是maxcompute的分區表。
實驗可以通過實驗模闆處建立。找到帶有【機器學習離線排程實作】字樣的實驗,從模闆建立。
首先,實驗流程圖:
實驗可以大緻分為四個子產品,資料源導入(ad),資料預處理(歸一化),模型訓練(邏輯回歸二分類),預測(預測)。
ad-2是訓練資料源。
ad-1是預測源,
中間過程包括資料的歸一化、模型預測兩個步驟。模型訓練是通過曆史資料訓練生成的預測模型。(詳細原理可以參考心髒病預測案例)
最終預測生成的結果表為ad_result-1,資料如下:
prediction_result包含每個廣告id是否被點選,被點選是1,不被點選為0。
prediction_score表示對應被點選機率
進入數加的資料開發應用:
(1)建立工作流任務
在畫布中可以拖動機器學習元件和odps_sql元件進行工作流的搭建。
輕按兩下"廣告預測"元件進入對應的機器學習子產品,選擇需要排程的機器學習實驗:
傳回,輕按兩下"每日預測值"元件,配置每日需要推送的資訊,這裡隻需要推送預測結果是"被點選的廣告",
選擇需要排程的時間,這裡我選擇每日的淩晨0點進行訓練和推送資訊。
點選“送出”按鈕,即可在運維中心檢視實驗的運作狀态。排程從第二天才正式開始,進入運維中心。可以檢視實驗的日志。
作者微信公衆号(與作者讨論):
聯系我們: [email protected]
往期文章:
<a href="https://yq.aliyun.com/articles/53862?spm=5176.100244.teamconlist.9.sxpb3b">【玩轉資料系列一】人口普查統計案例</a>
<a href="https://yq.aliyun.com/articles/54260?spm=5176.100244.teamconlist.7.sxpb3b">【玩轉資料系列二】機器學習應用沒那麼難,這次教你玩心髒病預測</a>
<a href="https://yq.aliyun.com/articles/57261?spm=5176.100244.teamconlist.3.sxpb3b">【玩轉資料系列三】利用圖算法實作金融行業風控</a>
<a href="https://yq.aliyun.com/articles/57718?spm=5176.100244.teamconlist.3.rpkvxw">【玩轉資料系列四】聽說啤酒和尿布很配?本期教你用協同過濾做推薦</a>
<a href="https://yq.aliyun.com/articles/58722?spm=5176.100244.teamconlist.3.ams6rq">【玩轉資料系列五】農業貸款發放預測</a>
<a href="https://yq.aliyun.com/articles/59205?spm=5176.100244.teamconlist.3.eea648">【玩轉資料系列六】文本分析算法實作新聞自動分類</a>
<a href="https://yq.aliyun.com/articles/59969?spm=5176.100244.teamconlist.3.hos3ju">【玩轉資料系列七】有娃的注意了,機器學習教您如何提高孩子學習成績</a>