用SPSS Modeler-对电商的重购买家特征挖掘

写在开头的话，这是笔者在上数据挖掘课的时候分析的书中的案例，格式是按照小论文的写法写的，所以章节分的很详细。

通过实验了解淘宝（电商）的业务运营模式、运营数据特征。通过此次试验，理解数据分析的思路、过程；掌握RFM模型、营销中“最佳联系人”和“重购买家的特征”的分析方法；掌握SPSS Statisitcs和SPSS Modeler的应用。本实验通过对淘宝护肤品及彩妆类卖家张三的顾客表和交易表进行分析，基于SPSS Modeler软件，对重购买家的特征进行深入的分析，挖掘单次购买与重复购买两类客户的特征，以此为新增客户的重复购买预测提供依据并及时制定对自己有利的营销方案。通过本次实验所做的分析，结合客户营销的五大原则，给案例中的淘宝店主张三提供一些有用的建议。

第1章引言

1.1 数据分析的背景

张三，护肤品及彩妆类卖家，几经打拼，信用积累到皇冠，但也累得半死，每日深陷护肤品行业的红海鏖战之中。感觉现在淘宝上的竞争越来越激烈，爆款可以带来销量，却带不来多少利润。促销、聚划算之类的活动做来做去，最后却发现钱都被开平台的马老板给挣走了。

焦虑中的张三迫切想得到自家店铺和在本店铺无重购行为的买家相比，在店铺中有重购行为的买家具有怎样的特征？

在店铺中存在重购行为的买家具有怎样的特征？这一个分析需求如果从统计建模的角度来讲，则基本类似于对重购行为进行预测建模，并从中寻找重购行为的影响因素。

购买店铺中产品的买家大致可以分为哪些类型？从营销的角度看，实际就是一个市场细分问题，而解决市场细分的方法中比较常用的是聚类分析。

客户营销有五大法则：

（一）二八法则：20%的客户创造了80%的销售额或利润；20%的商品产生了80%的销售额。

（二）RFM模型：细分客户很重要。

（三）“四四二”法则：40%的成功取决于营销对象；40%取决于报价或产品；20%取决于营销创意。

（四）AIDA模式：AIDA代表引起注意(Attention)、激发兴趣(Interest)、刺激购买欲(Desire)和促成购买(Action)。

（五）降价促销与打折促销：传统的直销盈利方式，直接的降价促销方式比打折的促销方式能引起更大的网络营销市场反应，并带来更多的经济收益。

在第一部分的实验中，通过RFM分析，帮张三找到了如果下次做促销活动，优先考虑的会员名单。

经过RFM的中间步分析和张三的观察，张三发现重购的用户其购买金额远远大于一次购买客户的购买金额，于是张三想弄清楚重购的客户都有哪些特征，从而在接下来的客服工作中可以对具有这些重购特征的客户进行重点服务。这既是本次实验接续上一段实验的数据分析背景。

1.2分析的目的与意义

通过实验，要获得这样的信息：买家要优先考虑对哪些会员进行促销？――这是一个标准的从历史客户群中定位可能“最有价值”的客户的分析需求，在营销方面有很多模型或者方法可以实现，但是在拥有明确的历史交易数据表的情况下，最简单易懂而且实用的方法非RFM模型莫属。在本店存在重购行为的买家具有怎样的特征？这一个分析需求如果从统计建模的角度来讲，则基本类似于对重购行为进行预测建模，并从中寻找重购行为的影响因素。购买本店铺产品的买家大致可以分为哪些类型？从营销的角度看，实际就是一个市场细分问题，而解决市场细分的方法中比较常用的是聚类分析。

本次实验的目的就是用数据挖掘的分析方法，帮助张三解决这个问题。

第2章数据审核与数据预处理

2.1 原始数据表说明

本次实验中一共用到两个数据文件，分别是交易表和买家表。在SPSSmodeler里面的源选项里面，添加两个statistics文件，分别赋予两个文件两个表的路径，并用表的形式输出数据源以供查看。如下面几张图片所示，并且，用本人学号后5位20414作为前缀。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-1两个数据源

用SPSS Modeler-对电商的重购买家特征挖掘

图2-2交易表的内容

用SPSS Modeler-对电商的重购买家特征挖掘

图2-3买家表的内容

在上面的两张图中可以看到，在交易表中，共有7个字段，17517条记录。7个字段分别是basket_id， buyer_id， goods_id， pur_time，price， shipcost， cases，点击显示字段和值标签按钮后可以看到，这7个字段分别代表着买单号、买家ID、商品ID、购买时间、总价、运费、商品数这七个含义。而在买家表中，共有6个字段，14635条记录。6个字段分别是buyer_id, buy_gender, buy_age, buy_prov, buy_city, buy_cred, 点击显示字段和值标签按钮后可以看到，这6个字段分别代表着买家ID、买家性别、买家年龄、买家省份、买家城市、买家信用这七个不同的含义。

这两个表中，有一个共同的字段——buyer_ID，即买家ID。

2.2 数据分布与数据审核

对两个表输出数据审核，可以很直观的看到数据审核的结果。如图2-4和2-5所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-4交易表的数据审核

用SPSS Modeler-对电商的重购买家特征挖掘

图2-5买家表的数据审核

从上面的两张图中可以看到，交易表的数据审核显示出最早的一次购买时间为2011-03-01，最后一次购买时间为2011-05-31。商品价格最低为3，最高为3933，平均值142.930，标准差129.815，偏度5.047。运费最低为0，最高为10.602，平均0.153，标准差0.966，偏度7.804。一次购买数量最少1件，最多30件。而且7个字段的17517条记录都是有效记录。

从买家表的数据审核结果中可以看到，买家性别有16%的1号代表的性别和44%的2号代表的性别，但是有40%的买家并没有提供自己的性别。买家的年龄最小的为11岁，最大的为79岁，平均年龄28岁。买家的省份共有50个。买家信用有14个级别。但是，在买家表中，并不是每个字段都有14635个有效记录，可以说，除了买家ID以外，剩下的6个字段都各自有不同程度的数据缺失。

接下来，对数据分布进行观察。在实验报告中，仅对部分字段的数据分布进行展示。如图2-6、2-7、2-8、2-9所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-6一次购买商品数cases的数据分布

在这个数据分布中可以看到，一次购买一件商品的比例达到95.93%，一次购买两件商品的比例为3.31%。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-7买家表中性别的数据分布

在这个数据分布中可以看到，1代表的性别占比16.2%，2代表的性别占比44.33%，没有性别信息的占比39.47%。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-8买家表买家省份的数据分布

用SPSS Modeler-对电商的重购买家特征挖掘

图2-9买家表中买家信用数据分布

2.3 数据预处理

在对买家表的数据审核进行观察时发现存在三个问题，（1）存在缺失数据和噪声数据。（2）“买家信用”目前的编码为字符串，无法表达出有序类型变量，因此需要进行变量值的重新编码。（3）“省份”变量值差距悬殊，低频省份可合并为其它。因此需要对买家表进行数据预处理，以便于进行下一步的工作。在图2-10中能看出买家年龄的离群值和极值，并可对它们进行处理，减少它们对数据分析的负面影响。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-10买家表中年龄字段的数据噪声

对于离群值，可以采取一些措施，减少它对数据分析的影响。比如可以直接丢弃。如图2-11所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-11丢弃离群值

对交易表做排序和汇总操作。如图2-12、2-13所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-12对交易表按照buyer_id进行排序操作及输出表

用SPSS Modeler-对电商的重购买家特征挖掘

图2-13对交易表中每个buyer_id汇总购买金额

接下来，对“买家信用”作类型变换操作，作此处理的原因是买家信用在原始数据中是字符型数据，并不是可以直接用来做数据分析的数字。所以要把它们转换成具体的数字代表。

在买家表字段选项里面选择类型，读取值，未能读取的值在流属性里面取消“名义字段的最大成员数”的勾选就可以读取了。如图2-14所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-14买家表类型读取值

然后，根据卖家信用的信息，创建新的字段buy_cred2，并输入新值。在输入新值时，1-5星用户信用分别用1.1-1.5代替，1-5钻用户信用分别用2.1-2.5代替，1-5皇冠用户信用分别用3.1-3.5代替，无信用的，0信用的，信用等级<=3的全部用0来代替。在做此操作之后，就可以得到变换后的用户信用字段。分别如图2-15和2-16所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-15创建新的字段并输入新值

用SPSS Modeler-对电商的重购买家特征挖掘

图2-16变化后的用户信用等级。

接下来，要解决“省份”变量值差距悬殊这个问题。通过操作，将省份统计<=30的合并为“其他地区”并将0、缺失及未知的，统一为“未知”。要进行这个操作，首先，要对省份这个字段进行排序-汇总-排序的操作，等到需要进行处理的省份的名字。如图2-17所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-17找出低频省份

在找出低频省份之后，就要把低频省份合并到一起，合并为其他地区。并将0，缺失，未知的合并为未知。在字段选项里面选择重新分类并命名为低频省份分类，在里面读取buy_prov字段重新分类为buy_prov2字段。如图2-18所示。输出结果如图2-19所示。图2-20是合并低频省份后的数据审核。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-18重新分类时给buy_prov2赋新值

用SPSS Modeler-对电商的重购买家特征挖掘

图2-19合并低频省份后的结果

用SPSS Modeler-对电商的重购买家特征挖掘

图2-20合并低频省份后的数据审核

在上述的数据预处理步骤都完成之后，因为本次试验是要根据交易表和买家表两张表共同进行分析，所以就有必要把两张表合并到一起成为一张表，后续的数据分析将在这一张合并后的表格上进行。将交易表和买家表进行合并操作，合并时选择关键词合并，使用两张表共同的字段buyer_id进行合并，并在合并时过滤掉3个已经没有意义的字段，分别是buy_prov、buy_city、buy_cred这三个字段。合并完成后，输出一个表格进行结果显示。这四步操作，分别如图2-21、2-22所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-21合并两张表

用SPSS Modeler-对电商的重购买家特征挖掘

图2-22合并后的新表格

至此，本次试验的数据预处理已经完成。

第3章数据分析

3.1 总体思路

首先，考虑到是要对重购用户的特征进行挖掘，就要先把重购用户分类出来。然后分别使用两个模型进行分析。之所以考虑用两个模型分别进行分析，是为了对比两个模型的预测结果，另一方面也可以侧面观察预测结果是不是可靠。

（一）使用C5.0模型对各个属性对重购次数的重要性进行分析。

（二）使用自动分类器对各个属性对重购次数的重要性进行分析。

3.2 基于Spss Modeler的数据分析过程

3.2.1 重构用户分类

为了找到重购用户的特征，就要把重构用户与只购买过一次的用户分开，所以就要分类。首先是把购买次数字段的类型调整成名义型。因为作为目标变量，不能是连续型，只能调整为名义型的数据，如图3-1所示，分别是调整过程和调整过后的结果。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-1调整购买次数为名义型

购买次数调整为名义以后，在字段选项里面选择重新分类结点，在设置时，重新分类为现有字段，除了购买次数为1的新值仍然为1以外，其余所有的值新值改为2。调整的过程和结果如图3-2所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-2重新分类购买次数

3.2.2 使用C5.0模型预测变量重要性

在建模里面选择C5.0结点，对前面输出过来的数据进行分析，得出各个属性对购买次数的影响的重要性，如图3-3所示。运行过后出来的结果如图3-4所示。再之后选择输出分析节点，如图3-5所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-3C5.0模型目标和输入字段

用SPSS Modeler-对电商的重购买家特征挖掘

图3-4C5.0模型的结果

用SPSS Modeler-对电商的重购买家特征挖掘

图3-5C5.0模型的结果分析

3.2.3 使用自动分类器

在建模里面选择自动分类器，用来预测其他属性对重购次数的重要性，如图3-6所示。输出的模型结果如图3-7和图3-8所示，分别代表模型的两种不同显示方式。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-6自动分类器

用SPSS Modeler-对电商的重购买家特征挖掘

图3-7自动分类器的模型结果

用SPSS Modeler-对电商的重购买家特征挖掘

图3-8自动分类器的模型结果之图形形式

用SPSS Modeler-对电商的重购买家特征挖掘

图3-9自动分类器的结果分析

在自动分类器的结果之后，还可以试探性的分析各个属性之间的关系，这次选用年龄和消费水平之间的关系，用多重散点图来表示，如图3-10所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-10年龄与消费水平的多重散点图

3.3 Spss Modeler中的完整数据流

至此，本次试验的所有流已经完成了，下面本次试验的完整数据流，如图3-11所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-11完整数据流

第4章结论及建议

4.1 数据分析的结果

通过C5.0模型的决策树对重构用户进行分析，从分析结果中可以看到分类正确的有12599个，占比86.09%，正确率比较高。

而通过自动分类器进行分析，正确的有12548个，正确率85.74%，与前一个模型的正确率相差无几。

用SPSS Modeler-对电商的重购买家特征挖掘

图4-1C5.0模型和自动分类器的结果分析

4.2 通过分析得到的结论

买家年龄和平均消费金额对是否重购有很大的影响，可以根据平均消费来预测哪些用户会成为重构用户。对于可能重购的用户，平均消费金额是最重要的预测依据，根据平均消费金额来预测某个客户是否是重购客户是非常有效的。消费金额在（143-1005）、（1088-3320）范围内的客户，是重购客户的可能性非常大。

4.3 对商家的建议

商家张三应该对预测出的可能会重购的用户推送一些广告和优惠活动，以便增加他们重构的可能性。另外，从年龄和消费水平的散点图中可以看出20-40岁这个年龄段的客户消费金额在我们预测出的可能重购客户的范围内，所以建议店家可以针对这个年龄段内的客户再给于更多的优惠，也可以给他们投放更多的广告。

数据源https://download.csdn.net/download/youxinyuchu/16072692

用SPSS Modeler-对电商的重购买家特征挖掘

继续阅读

LabelImg的安装与使用（Anaconda环境）Labellmg的安装

windows10 64bit + Anaconda + python3.5 安装xgboost的一种简单方法

数据挖掘-归一化

Anaconda：Matpotlib工具安装

anaconda安装及使用小技巧anaconda使用小技巧

Anaconda环境配置

一、Python数据挖掘（环境篇——Anaconda与Jupyter Notebook）一、Python数据挖掘（环境篇——Anaconda与Jupyter Notebook）

Anaconda3安装face_recognitionAnaconda3(python3.7.4)安装face_recognition

数据挖掘中的隐私保护

数据挖掘研究内容和本质（转）

数据挖掘分类技术

浅谈数据挖掘评估技术

数据挖掘001

从大数据看技术，为什么天猫双11是史上最大数字经济节日

用Matlab搞计算机视觉是怎样的体验？

在weka中集成自己的算法