天天看点

O2O优惠券预测——思路总结1. 资料整理2. 赛题背景3. 赛题目标4. 数据描述及分析5. 特征提取

<a href="https://www.zhihu.com/question/42154455/answer/124080774" target="_blank">各竞赛QQ群</a>

<a href="http://www.datafountain.cn/data/science/player/competition/detail/description/238" target="_blank">竞赛官网</a>

<a href="https://bbs.aliyun.com/thread/254.html?spm=5176.bbsl254.0.0.sBagXf&amp;type=1214&amp;type=1214#tabA" target="_blank">论坛专区</a>

<a href="https://tianchi.shuju.aliyun.com/getStart/introduction.htm?spm=5176.100066.333.1.osUTZq&amp;raceId=231593" target="_blank">天池新人实战赛[o2o优惠券使用预测]</a>

也可以去天池官网上,点学习入口,下面的视频,这边也有对这次020比赛的一些视频解说

<a href="https://bbs.aliyun.com/read/273638.html" target="_blank">数加平台指南+文档、视频、FAQ及精华帖干货集锦</a>

<a href="http://www.jianshu.com/p/00dba98eb1d0" target="_blank">数据科学完整学习路径</a>

O2O(Online to Offline)消费

O2O:是指将线下的商务机会与互联网结合,让互联网成为线下交易的平台

以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式

个性化投放优惠券,提高核销率

通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券

已知:用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为

预测:用户在2016年7月领取优惠券后15天以内的使用情况

评价标准:优惠券核销预测的平均AUC(ROC曲线下面积)。即对每个优惠券coupon_id单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。 关于AUC的含义与具体计算方法,可参考维基百科

Table 1: 用户线下消费和优惠券领取行为,ccf_offline_stage1_train.csv

Table 2: 用户线上点击/消费和优惠券领取行为,ccf_online_stage1_train

Table 3:用户O2O线下优惠券使用预测样本,ccf_offline_stage1_test_revised.csv

Table 4:选手提交文件字段,其中user_id,coupon_id和date_received均来自Table 3,而Probability为预测值

TABLE 1: 用户线下消费和优惠券领取行为 

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-57-25.png"></a>

Table 2: 用户线上点击/消费和优惠券领取行为

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-04.png"></a>

Table 3:用户O2O线下优惠券使用预测样本

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-29.png"></a>

Table 4选手提交文件字段

其中user_id,coupon_id和date_received均来自Table 3,而Probability为预测值

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-40.png"></a>

TABLE 1 分析

特点:

– 标题:用户线下消费和优惠券领取行为

– 场景:线下

– 行为:消费、优惠券领取

– 数据:优惠券领取、使用情况,消费情况,用户常活动地点与最近门店距离

分析1:用户行为有三种情况

– 领了优惠券 &amp;&amp; 未消费 = 负样本 (Date=null &amp; Coupon_id != null)

– 没领优惠券 &amp;&amp; 已消费(Date!=null &amp; Coupon_id = null)

– 领了优惠券 &amp;&amp; 已消费(Date!=null &amp; Coupon_id != null)

– 总结:本数据作为刻画用户特点的主要依据较为合理

分析2:优惠率

– 总结:有可能用户会根据优惠率来决定是否进行消费

分析3:距离

– 离用户近的门店可能会总领取优惠券,但不一定会使用。

– 离用户远的门店如果有优惠券,则可能会为了很大的优惠率专程去使用。

总结

– 本数据集主要刻画线下用户特征。

TABLE 2 分析

– 标题:用户线上点击/消费和优惠券领取行为

– 场景:线上

– 行为:点击、消费、优惠券领取

– 数据:用户是否点击。购买。领取优惠券。

– 领了优惠券 &amp;&amp; 未消费 = 负样本(Date=null &amp; Coupon_id != null)

– 没领优惠券 &amp;&amp; 已消费 (Date!=null &amp; Coupon_id = null)

– 领了优惠券 &amp;&amp; 已消费 (Date!=null &amp; Coupon_id != null)

分析2:用户点击、消费、优惠券情况

– 用户点击了 &amp;&amp; 没领优惠券 &amp;&amp; 未消费 = 负样本

– 用户点击了 &amp;&amp; 领了优惠券 &amp;&amp; 未消费

– 用户点击了 &amp;&amp; 领了优惠券 &amp;&amp; 已消费

– 用户点击了 &amp;&amp; 没领优惠券 &amp;&amp; 已消费

– 用户没点击

– 本数据集主要刻画线上用户特征。

测试集

对提供的数据做一些基本的统计,有助于对赛题的理解,可以熟悉业务逻辑,也方便后面的特征工程。

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-12-21-38-50.png"></a>

<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-12-21-39-13.png"></a>

特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征

经验上来说,这些特征提取的越多越好,并不用担心特征过多,因为推荐系统的数据量都比较大,并且基于一些规则可以很好的筛选特征。

第一次做特征提取,很多东西想得不够周到。参考了很多第一名的思想。

用途:描述用户消费偏好

线下:

领取优惠券率(领取次数/总次数)

优惠券核销率(优惠券使用次数/优惠券领取次数)

消费率(消费次数/总次数)

核销时的优惠率

领取、使用优惠券间隔

user经常活动的地点离平均/最大/最小用户-商家的最近门店距离

消费频数

优惠券领取频数

优惠券使用频数

用户满减优惠券核销率(满减优惠券使用次数/优惠券领取次数)

用户满减优惠券核销比重(满减优惠券使用次数/优惠券使用次数)

核销优惠券的平均/最低/最高消费打率

核销过的商户数量,以及不同商家的比重

核销过的不同优惠券数量,以及其与优惠券种类数的比重

平均每个商家核销多少张优惠券

线上:

优惠券领取率(领取/总)

点击频数

优惠券核销率(使用/领取)

消费率(消费次数/总)

用户线上不消费次数

用户线下不消费次数占线上线下总的不消费次数的比重

用户线下的优惠券核销次数占线上线下总的优惠券核销次数的比重

优惠率

优惠券被领取次数

优惠券核销率

购买频数

优惠券被领取频数

优惠券被使用频数

消费率(购买/总)

转载。原文:https://jiayi797.github.io/2017/03/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-O2O%E4%BC%98%E6%83%A0%E5%88%B8%E9%A2%84%E6%B5%8B-%E6%80%9D%E8%B7%AF%E6%80%BB%E7%BB%93/