天天看點

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

(本文資料為虛構,僅供實驗。本實驗拟在介紹阿裡雲機器學習與大資料開發排程的配合。)

本文實作的場景是廣告的ctr預測。廣告ctr預測是廣告行業的典型應用,通過曆史資料訓練預測模型,對于每天的增量資料進行預測,找出廣告的ctr符合标準的樣本進行投放。

整套實驗使用了阿裡雲機器學習進行資料挖掘工作,通過大資料開發套件進行排程和推送。具體的業務場景是:通過曆史資料在阿裡雲機器學習平台上面訓練模型,通過大資料開發進行排程,每天淩晨對于每天的廣告投放ctr預測,甄選出符合标準的廣告推送出去。

具體字段如下:

字段名

含義

類型

描述

id

string

廣告的唯一辨別

age

年齡

double

廣告投放人群的年齡

sex

性别

廣告投放人群的性别,1是男,0是女

duration

時長

廣告在界面的停留時長,以秒為機關

place

位置

廣告投放位置,0~4,按照投放位置從上到下的順序排列

ctr

廣告ctr

廣告點選量除以展現量,這裡面大于0.03是1,其它是0

dt

partition

年月日格式yyyymmdd

資料截圖:

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

資料是通過random算法随機生成,是以本次實驗不針對結果進行評估,主要介紹實驗搭建以及和大資料開發套件的排程使用。資料包含20160919、20160920的曆史資料,需要針對20160921的資料預測。使用的是maxcompute的分區表。

實驗可以通過實驗模闆處建立。找到帶有【機器學習離線排程實作】字樣的實驗,從模闆建立。

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

首先,實驗流程圖:

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

實驗可以大緻分為四個子產品,資料源導入(ad),資料預處理(歸一化),模型訓練(邏輯回歸二分類),預測(預測)。

ad-2是訓練資料源。

ad-1是預測源,

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

中間過程包括資料的歸一化、模型預測兩個步驟。模型訓練是通過曆史資料訓練生成的預測模型。(詳細原理可以參考心髒病預測案例)

最終預測生成的結果表為ad_result-1,資料如下:

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

prediction_result包含每個廣告id是否被點選,被點選是1,不被點選為0。

prediction_score表示對應被點選機率

進入數加的資料開發應用:

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

(1)建立工作流任務

在畫布中可以拖動機器學習元件和odps_sql元件進行工作流的搭建。

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

輕按兩下"廣告預測"元件進入對應的機器學習子產品,選擇需要排程的機器學習實驗:

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

傳回,輕按兩下"每日預測值"元件,配置每日需要推送的資訊,這裡隻需要推送預測結果是"被點選的廣告",

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

選擇需要排程的時間,這裡我選擇每日的淩晨0點進行訓練和推送資訊。

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

點選“送出”按鈕,即可在運維中心檢視實驗的運作狀态。排程從第二天才正式開始,進入運維中心。可以檢視實驗的日志。

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

作者微信公衆号(與作者讨論):

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

聯系我們: [email protected]

往期文章:

<a href="https://yq.aliyun.com/articles/53862?spm=5176.100244.teamconlist.9.sxpb3b">【玩轉資料系列一】人口普查統計案例</a>

<a href="https://yq.aliyun.com/articles/54260?spm=5176.100244.teamconlist.7.sxpb3b">【玩轉資料系列二】機器學習應用沒那麼難,這次教你玩心髒病預測</a>

<a href="https://yq.aliyun.com/articles/57261?spm=5176.100244.teamconlist.3.sxpb3b">【玩轉資料系列三】利用圖算法實作金融行業風控</a>

<a href="https://yq.aliyun.com/articles/57718?spm=5176.100244.teamconlist.3.rpkvxw">【玩轉資料系列四】聽說啤酒和尿布很配?本期教你用協同過濾做推薦</a>

<a href="https://yq.aliyun.com/articles/58722?spm=5176.100244.teamconlist.3.ams6rq">【玩轉資料系列五】農業貸款發放預測</a>

<a href="https://yq.aliyun.com/articles/59205?spm=5176.100244.teamconlist.3.eea648">【玩轉資料系列六】文本分析算法實作新聞自動分類</a>

<a href="https://yq.aliyun.com/articles/59969?spm=5176.100244.teamconlist.3.hos3ju">【玩轉資料系列七】有娃的注意了,機器學習教您如何提高孩子學習成績</a>