<a href="https://www.zhihu.com/question/42154455/answer/124080774" target="_blank">各竞赛QQ群</a>
<a href="http://www.datafountain.cn/data/science/player/competition/detail/description/238" target="_blank">竞赛官网</a>
<a href="https://bbs.aliyun.com/thread/254.html?spm=5176.bbsl254.0.0.sBagXf&type=1214&type=1214#tabA" target="_blank">论坛专区</a>
<a href="https://tianchi.shuju.aliyun.com/getStart/introduction.htm?spm=5176.100066.333.1.osUTZq&raceId=231593" target="_blank">天池新人实战赛[o2o优惠券使用预测]</a>
也可以去天池官网上,点学习入口,下面的视频,这边也有对这次020比赛的一些视频解说
<a href="https://bbs.aliyun.com/read/273638.html" target="_blank">数加平台指南+文档、视频、FAQ及精华帖干货集锦</a>
<a href="http://www.jianshu.com/p/00dba98eb1d0" target="_blank">数据科学完整学习路径</a>
O2O(Online to Offline)消费
O2O:是指将线下的商务机会与互联网结合,让互联网成为线下交易的平台
以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式
个性化投放优惠券,提高核销率
通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券
已知:用户在2016年1月1日至2016年6月30日之间真实线上线下消费行为
预测:用户在2016年7月领取优惠券后15天以内的使用情况
评价标准:优惠券核销预测的平均AUC(ROC曲线下面积)。即对每个优惠券coupon_id单独计算核销预测的AUC值,再对所有优惠券的AUC值求平均作为最终的评价标准。 关于AUC的含义与具体计算方法,可参考维基百科
Table 1: 用户线下消费和优惠券领取行为,ccf_offline_stage1_train.csv
Table 2: 用户线上点击/消费和优惠券领取行为,ccf_online_stage1_train
Table 3:用户O2O线下优惠券使用预测样本,ccf_offline_stage1_test_revised.csv
Table 4:选手提交文件字段,其中user_id,coupon_id和date_received均来自Table 3,而Probability为预测值
TABLE 1: 用户线下消费和优惠券领取行为
<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-57-25.png"></a>
Table 2: 用户线上点击/消费和优惠券领取行为
<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-04.png"></a>
Table 3:用户O2O线下优惠券使用预测样本
<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-29.png"></a>
Table 4选手提交文件字段
其中user_id,coupon_id和date_received均来自Table 3,而Probability为预测值
<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-03-21-58-40.png"></a>
TABLE 1 分析
特点:
– 标题:用户线下消费和优惠券领取行为
– 场景:线下
– 行为:消费、优惠券领取
– 数据:优惠券领取、使用情况,消费情况,用户常活动地点与最近门店距离
分析1:用户行为有三种情况
– 领了优惠券 && 未消费 = 负样本 (Date=null & Coupon_id != null)
– 没领优惠券 && 已消费(Date!=null & Coupon_id = null)
– 领了优惠券 && 已消费(Date!=null & Coupon_id != null)
– 总结:本数据作为刻画用户特点的主要依据较为合理
分析2:优惠率
– 总结:有可能用户会根据优惠率来决定是否进行消费
分析3:距离
– 离用户近的门店可能会总领取优惠券,但不一定会使用。
– 离用户远的门店如果有优惠券,则可能会为了很大的优惠率专程去使用。
总结
– 本数据集主要刻画线下用户特征。
TABLE 2 分析
– 标题:用户线上点击/消费和优惠券领取行为
– 场景:线上
– 行为:点击、消费、优惠券领取
– 数据:用户是否点击。购买。领取优惠券。
– 领了优惠券 && 未消费 = 负样本(Date=null & Coupon_id != null)
– 没领优惠券 && 已消费 (Date!=null & Coupon_id = null)
– 领了优惠券 && 已消费 (Date!=null & Coupon_id != null)
分析2:用户点击、消费、优惠券情况
– 用户点击了 && 没领优惠券 && 未消费 = 负样本
– 用户点击了 && 领了优惠券 && 未消费
– 用户点击了 && 领了优惠券 && 已消费
– 用户点击了 && 没领优惠券 && 已消费
– 用户没点击
– 本数据集主要刻画线上用户特征。
测试集
对提供的数据做一些基本的统计,有助于对赛题的理解,可以熟悉业务逻辑,也方便后面的特征工程。
<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-12-21-38-50.png"></a>
<a href="http://om1bxijvl.bkt.clouddn.com/2017-03-12-21-39-13.png"></a>
特征提取:将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征
经验上来说,这些特征提取的越多越好,并不用担心特征过多,因为推荐系统的数据量都比较大,并且基于一些规则可以很好的筛选特征。
第一次做特征提取,很多东西想得不够周到。参考了很多第一名的思想。
用途:描述用户消费偏好
线下:
领取优惠券率(领取次数/总次数)
优惠券核销率(优惠券使用次数/优惠券领取次数)
消费率(消费次数/总次数)
核销时的优惠率
领取、使用优惠券间隔
user经常活动的地点离平均/最大/最小用户-商家的最近门店距离
消费频数
优惠券领取频数
优惠券使用频数
用户满减优惠券核销率(满减优惠券使用次数/优惠券领取次数)
用户满减优惠券核销比重(满减优惠券使用次数/优惠券使用次数)
核销优惠券的平均/最低/最高消费打率
核销过的商户数量,以及不同商家的比重
核销过的不同优惠券数量,以及其与优惠券种类数的比重
平均每个商家核销多少张优惠券
线上:
优惠券领取率(领取/总)
点击频数
优惠券核销率(使用/领取)
消费率(消费次数/总)
用户线上不消费次数
用户线下不消费次数占线上线下总的不消费次数的比重
用户线下的优惠券核销次数占线上线下总的优惠券核销次数的比重
优惠率
优惠券被领取次数
优惠券核销率
购买频数
优惠券被领取频数
优惠券被使用频数
消费率(购买/总)
转载。原文:https://jiayi797.github.io/2017/03/03/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-O2O%E4%BC%98%E6%83%A0%E5%88%B8%E9%A2%84%E6%B5%8B-%E6%80%9D%E8%B7%AF%E6%80%BB%E7%BB%93/