数据来源:https://tianchi.aliyun.com/home/
数据分析的步骤:提出问题,理解数据,数据清洗,模型构建,数据可视化
一、提出问题
用户分析:
1、哪个月份用户最活跃?
2、最活跃月份中的具体活跃情况如何?
3、用户婴儿性别比例情况?
4、男、女婴儿分别购买的产品,排名前3的产品是啥?
5、婴儿年龄与购买量之间的联系?
6、不同年龄段婴儿的热销产品情况?
产品分析:
1、哪种商品种类销量最多?
2、2013与2014年双11销量对比。
二、理解数据
数据来源:阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLiAzNfRHLGZkRGZkRfJ3bs92YsYTMfVmepNHL90zdNpXTyoVdGdVYzFjMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnL0czNwIDM1UTM3ADOwkTMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
表1 为婴儿信息
(包含用户id,婴儿的生日,婴儿的性别,0代表男,1代表女,2代表不知道)
表2 为购买的婴儿产品信息
(包含用户id,商品id,产品id,品类id,属性,购买数量,购买日期)
三、数据清洗
选择子集,列名重命名,删除重复项,缺失值处理,一致化处理,数据排序,异常值处理
1、选择子集
表1用户婴儿信息数据
表2购买的婴儿产品信息数据
使用VLOOKUP多表联查,把表1中的【birthday生日】和【gender性别】两个字段复制到表2中。
生日
性别
因为有部分生日和性别相关的数据并不存在此表中,所以会出现N/A。这边提前把N/A 设为空值。
2、列表重命名
上面已经提前把英文的列名都重命名为中文了。
3、删除重复项
【用户id】是唯一标识,删除表1中的【用户id】重复值。发现并没有重复值
4、缺失值处理
通过筛选功能,查看到有【商品属性】【生日】和【性别】存在缺失值。属性由于是指如产品的产地,保质期等代号信息,不容易进行补充,所以设置为空值;【生日】和【性别】的缺失值在前面已被设置为空值了,由于缺失值太多,不便填补。
5、一致化处理
通过“分列”或者“函数:left 和 find” 处理【购买时间】的时间格式。
这边用“分列”进行操作。
由于分列后的结果会覆盖右边的数据,所以要提前把【购买时间】这一列的数据复制到最右边。
选择固定宽度
6、数据排序
用“筛选”对时间进行排序。
7、异常值处理
本次数据没有发现异常值。
四、构建模型以及数据可视化
建议:
1.可在2月份时减少库存量,但确保11月份的库存量充足以应付激增的销量。
2.11月11-12日两天应该增加员工数量和库存量去满足用户需求。
3.由于没有分析出5月份用户活跃度在上半年最高的原因,故应多维度去分析一下6月份数量下降的原因。
4.应该分析更多维度会导致销量增长的原因,然后可继续使用此促进增长方法。
5.选择更多适合2岁婴儿的产品进行销售。
6.可以恰当增加品类【28】的库存量,减少【122650008】的。
7.采集销量最高的产品和其他类似的产品的相关数据(如:价格,上架时间,加入购物车量,产品描述,促销活动情况),从而分析该产品销量远高于同类产品的原因。
上文如有错的地方,欢迎大家来指点。谢谢观看。