【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址：https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

（本文資料為虛構，僅供實驗。本實驗拟在介紹阿裡雲機器學習與大資料開發排程的配合。）

本文實作的場景是廣告的ctr預測。廣告ctr預測是廣告行業的典型應用，通過曆史資料訓練預測模型，對于每天的增量資料進行預測，找出廣告的ctr符合标準的樣本進行投放。

整套實驗使用了阿裡雲機器學習進行資料挖掘工作，通過大資料開發套件進行排程和推送。具體的業務場景是：通過曆史資料在阿裡雲機器學習平台上面訓練模型，通過大資料開發進行排程，每天淩晨對于每天的廣告投放ctr預測，甄選出符合标準的廣告推送出去。

具體字段如下：

字段名

含義

類型

描述

string

廣告的唯一辨別

age

年齡

double

廣告投放人群的年齡

sex

性别

廣告投放人群的性别，1是男，0是女

duration

時長

廣告在界面的停留時長，以秒為機關

place

位置

廣告投放位置，0~4，按照投放位置從上到下的順序排列

ctr

廣告ctr

廣告點選量除以展現量，這裡面大于0.03是1，其它是0

partition

年月日格式yyyymmdd

資料截圖：

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址：https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

資料是通過random算法随機生成，是以本次實驗不針對結果進行評估，主要介紹實驗搭建以及和大資料開發套件的排程使用。資料包含20160919、20160920的曆史資料，需要針對20160921的資料預測。使用的是maxcompute的分區表。

實驗可以通過實驗模闆處建立。找到帶有【機器學習離線排程實作】字樣的實驗，從模闆建立。

首先，實驗流程圖：

實驗可以大緻分為四個子產品，資料源導入（ad），資料預處理（歸一化），模型訓練（邏輯回歸二分類），預測（預測）。

ad-2是訓練資料源。

ad-1是預測源，

中間過程包括資料的歸一化、模型預測兩個步驟。模型訓練是通過曆史資料訓練生成的預測模型。(詳細原理可以參考心髒病預測案例)

最終預測生成的結果表為ad_result-1,資料如下：

prediction_result包含每個廣告id是否被點選，被點選是1，不被點選為0。

prediction_score表示對應被點選機率

進入數加的資料開發應用：

(1)建立工作流任務

在畫布中可以拖動機器學習元件和odps_sql元件進行工作流的搭建。

輕按兩下"廣告預測"元件進入對應的機器學習子產品，選擇需要排程的機器學習實驗：

傳回，輕按兩下"每日預測值"元件，配置每日需要推送的資訊，這裡隻需要推送預測結果是"被點選的廣告",

選擇需要排程的時間，這裡我選擇每日的淩晨0點進行訓練和推送資訊。

點選“送出”按鈕，即可在運維中心檢視實驗的運作狀态。排程從第二天才正式開始，進入運維中心。可以檢視實驗的日志。

作者微信公衆号(與作者讨論)：

聯系我們: [email protected]

往期文章：

<a href="https://yq.aliyun.com/articles/53862?spm=5176.100244.teamconlist.9.sxpb3b">【玩轉資料系列一】人口普查統計案例</a>

<a href="https://yq.aliyun.com/articles/54260?spm=5176.100244.teamconlist.7.sxpb3b">【玩轉資料系列二】機器學習應用沒那麼難，這次教你玩心髒病預測</a>

<a href="https://yq.aliyun.com/articles/57261?spm=5176.100244.teamconlist.3.sxpb3b">【玩轉資料系列三】利用圖算法實作金融行業風控</a>

<a href="https://yq.aliyun.com/articles/57718?spm=5176.100244.teamconlist.3.rpkvxw">【玩轉資料系列四】聽說啤酒和尿布很配？本期教你用協同過濾做推薦</a>

<a href="https://yq.aliyun.com/articles/58722?spm=5176.100244.teamconlist.3.ams6rq">【玩轉資料系列五】農業貸款發放預測</a>

<a href="https://yq.aliyun.com/articles/59205?spm=5176.100244.teamconlist.3.eea648">【玩轉資料系列六】文本分析算法實作新聞自動分類</a>

<a href="https://yq.aliyun.com/articles/59969?spm=5176.100244.teamconlist.3.hos3ju">【玩轉資料系列七】有娃的注意了，機器學習教您如何提高孩子學習成績</a>

【玩轉資料系列八】機器學習算法的離線排程實作-廣告CTR預測機器學習實驗部署和排程産品位址：https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2

繼續閱讀

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

Shell程式設計——sort排序、uniq忽略重複、tr替換壓縮删除、cut指定删除字段、正規表達式元字元sort 指令uniq 指令tr 指令cut 指令正規表達式

筆試面試題目：滑動視窗(二)

Linxu常用指令技巧彙總

httpd服務的部署、啟動、配置和簡單優化一、部署二、啟動三、配置檔案

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

資料結構與算法（27）——排序（二）

nginx 安裝錯誤資訊解決

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希