天天看點

O2O優惠券預測——思路總結1. 資料整理2. 賽題背景3. 賽題目标4. 資料描述及分析5. 特征提取

<a href="https://www.zhihu.com/question/42154455/answer/124080774" target="_blank">各競賽QQ群</a>

<a href="http://www.datafountain.cn/data/science/player/competition/detail/description/238" target="_blank">競賽官網</a>

<a href="https://bbs.aliyun.com/thread/254.html?spm=5176.bbsl254.0.0.sBagXf&amp;type=1214&amp;type=1214#tabA" target="_blank">論壇專區</a>

<a href="https://tianchi.shuju.aliyun.com/getStart/introduction.htm?spm=5176.100066.333.1.osUTZq&amp;raceId=231593" target="_blank">天池新人實戰賽[o2o優惠券使用預測]</a>

也可以去天池官網上,點學習入口,下面的視訊,這邊也有對這次020比賽的一些視訊解說

<a href="https://bbs.aliyun.com/read/273638.html" target="_blank">數加平台指南+文檔、視訊、FAQ及精華帖幹貨集錦</a>

<a href="http://www.jianshu.com/p/00dba98eb1d0" target="_blank">資料科學完整學習路徑</a>

O2O(Online to Offline)消費

O2O:是指将線下的商務機會與網際網路結合,讓網際網路成為線下交易的平台

以優惠券盤活老使用者或吸引新客戶進店消費是O2O的一種重要營銷方式

個性化投放優惠券,提高核銷率

通過分析模組化,精準預測使用者是否會在規定時間内使用相應優惠券

已知:使用者在2016年1月1日至2016年6月30日之間真實線上線下消費行為

預測:使用者在2016年7月領取優惠券後15天以内的使用情況

評價标準:優惠券核銷預測的平均AUC(ROC曲線下面積)。即對每個優惠券coupon_id單獨計算核銷預測的AUC值,再對所有優惠券的AUC值求平均作為最終的評價标準。 關于AUC的含義與具體計算方法,可參考維基百科

Table 1: 使用者線下消費和優惠券領取行為,ccf_offline_stage1_train.csv

Table 2: 使用者線上點選/消費和優惠券領取行為,ccf_online_stage1_train

Table 3:使用者O2O線下優惠券使用預測樣本,ccf_offline_stage1_test_revised.csv

Table 4:選手送出檔案字段,其中user_id,coupon_id和date_received均來自Table 3,而Probability為預測值

TABLE 1: 使用者線下消費和優惠券領取行為 

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-57-25.png"></a>

Table 2: 使用者線上點選/消費和優惠券領取行為

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-04.png"></a>

Table 3:使用者O2O線下優惠券使用預測樣本

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-29.png"></a>

Table 4選手送出檔案字段

其中user_id,coupon_id和date_received均來自Table 3,而Probability為預測值

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-40.png"></a>

TABLE 1 分析

特點:

– 标題:使用者線下消費和優惠券領取行為

– 場景:線下

– 行為:消費、優惠券領取

– 資料:優惠券領取、使用情況,消費情況,使用者常活動地點與最近門店距離

分析1:使用者行為有三種情況

– 領了優惠券 &amp;&amp; 未消費 = 負樣本 (Date=null &amp; Coupon_id != null)

– 沒領優惠券 &amp;&amp; 已消費(Date!=null &amp; Coupon_id = null)

– 領了優惠券 &amp;&amp; 已消費(Date!=null &amp; Coupon_id != null)

– 總結:本資料作為刻畫使用者特點的主要依據較為合理

分析2:優惠率

– 總結:有可能使用者會根據優惠率來決定是否進行消費

分析3:距離

– 離使用者近的門店可能會總領取優惠券,但不一定會使用。

– 離使用者遠的門店如果有優惠券,則可能會為了很大的優惠率專程去使用。

總結

– 本資料集主要刻畫線下使用者特征。

TABLE 2 分析

– 标題:使用者線上點選/消費和優惠券領取行為

– 場景:線上

– 行為:點選、消費、優惠券領取

– 資料:使用者是否點選。購買。領取優惠券。

– 領了優惠券 &amp;&amp; 未消費 = 負樣本(Date=null &amp; Coupon_id != null)

– 沒領優惠券 &amp;&amp; 已消費 (Date!=null &amp; Coupon_id = null)

– 領了優惠券 &amp;&amp; 已消費 (Date!=null &amp; Coupon_id != null)

分析2:使用者點選、消費、優惠券情況

– 使用者點選了 &amp;&amp; 沒領優惠券 &amp;&amp; 未消費 = 負樣本

– 使用者點選了 &amp;&amp; 領了優惠券 &amp;&amp; 未消費

– 使用者點選了 &amp;&amp; 領了優惠券 &amp;&amp; 已消費

– 使用者點選了 &amp;&amp; 沒領優惠券 &amp;&amp; 已消費

– 使用者沒點選

– 本資料集主要刻畫線上使用者特征。

測試集

對提供的資料做一些基本的統計,有助于對賽題的了解,可以熟悉業務邏輯,也友善後面的特征工程。

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-12-21-38-50.png"></a>

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-12-21-39-13.png"></a>

特征提取:将原始特征轉換為一組具有明顯實體意義(Gabor、幾何特征[角點、不變量]、紋理[LBP HOG])或者統計意義或核的特征

經驗上來說,這些特征提取的越多越好,并不用擔心特征過多,因為推薦系統的資料量都比較大,并且基于一些規則可以很好的篩選特征。

第一次做特征提取,很多東西想得不夠周到。參考了很多第一名的思想。

用途:描述使用者消費偏好

線下:

領取優惠券率(領取次數/總次數)

優惠券核銷率(優惠券使用次數/優惠券領取次數)

消費率(消費次數/總次數)

核銷時的優惠率

領取、使用優惠券間隔

user經常活動的地點離平均/最大/最小使用者-商家的最近門店距離

消費頻數

優惠券領取頻數

優惠券使用頻數

使用者滿減優惠券核銷率(滿減優惠券使用次數/優惠券領取次數)

使用者滿減優惠券核銷比重(滿減優惠券使用次數/優惠券使用次數)

核銷優惠券的平均/最低/最高消費打率

核銷過的商戶數量,以及不同商家的比重

核銷過的不同優惠券數量,以及其與優惠券種類數的比重

平均每個商家核銷多少張優惠券

線上:

優惠券領取率(領取/總)

點選頻數

優惠券核銷率(使用/領取)

消費率(消費次數/總)

使用者線上不消費次數

使用者線下不消費次數占線上線下總的不消費次數的比重

使用者線下的優惠券核銷次數占線上線下總的優惠券核銷次數的比重

優惠率

優惠券被領取次數

優惠券核銷率

購買頻數

優惠券被領取頻數

優惠券被使用頻數

消費率(購買/總)

轉載。原文:https://jiayi797.github.io/2017/03/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-O2O%E4%BC%98%E6%83%A0%E5%88%B8%E9%A2%84%E6%B5%8B-%E6%80%9D%E8%B7%AF%E6%80%BB%E7%BB%93/