天天看点

淘宝婴儿产品销售的数据分析

数据来源:https://tianchi.aliyun.com/home/

数据分析的步骤:提出问题,理解数据,数据清洗,模型构建,数据可视化

一、提出问题

用户分析:

1、哪个月份用户最活跃?

2、最活跃月份中的具体活跃情况如何?

3、用户婴儿性别比例情况?

4、男、女婴儿分别购买的产品,排名前3的产品是啥?

5、婴儿年龄与购买量之间的联系?

6、不同年龄段婴儿的热销产品情况?

产品分析:

1、哪种商品种类销量最多?

2、2013与2014年双11销量对比。

二、理解数据

数据来源:阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

淘宝婴儿产品销售的数据分析

表1 为婴儿信息

(包含用户id,婴儿的生日,婴儿的性别,0代表男,1代表女,2代表不知道)

表2 为购买的婴儿产品信息

(包含用户id,商品id,产品id,品类id,属性,购买数量,购买日期)

三、数据清洗

选择子集,列名重命名,删除重复项,缺失值处理,一致化处理,数据排序,异常值处理

1、选择子集

淘宝婴儿产品销售的数据分析

表1用户婴儿信息数据

淘宝婴儿产品销售的数据分析

表2购买的婴儿产品信息数据

使用VLOOKUP多表联查,把表1中的【birthday生日】和【gender性别】两个字段复制到表2中。

淘宝婴儿产品销售的数据分析

生日

淘宝婴儿产品销售的数据分析

性别

因为有部分生日和性别相关的数据并不存在此表中,所以会出现N/A。这边提前把N/A 设为空值。

2、列表重命名

上面已经提前把英文的列名都重命名为中文了。

3、删除重复项

【用户id】是唯一标识,删除表1中的【用户id】重复值。发现并没有重复值

淘宝婴儿产品销售的数据分析

4、缺失值处理

通过筛选功能,查看到有【商品属性】【生日】和【性别】存在缺失值。属性由于是指如产品的产地,保质期等代号信息,不容易进行补充,所以设置为空值;【生日】和【性别】的缺失值在前面已被设置为空值了,由于缺失值太多,不便填补。

5、一致化处理

通过“分列”或者“函数:left 和 find” 处理【购买时间】的时间格式。

这边用“分列”进行操作。

由于分列后的结果会覆盖右边的数据,所以要提前把【购买时间】这一列的数据复制到最右边。

选择固定宽度

淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析

6、数据排序

用“筛选”对时间进行排序。

7、异常值处理

本次数据没有发现异常值。

四、构建模型以及数据可视化

淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析
淘宝婴儿产品销售的数据分析

建议:

1.可在2月份时减少库存量,但确保11月份的库存量充足以应付激增的销量。

2.11月11-12日两天应该增加员工数量和库存量去满足用户需求。

3.由于没有分析出5月份用户活跃度在上半年最高的原因,故应多维度去分析一下6月份数量下降的原因。

4.应该分析更多维度会导致销量增长的原因,然后可继续使用此促进增长方法。

5.选择更多适合2岁婴儿的产品进行销售。

6.可以恰当增加品类【28】的库存量,减少【122650008】的。

7.采集销量最高的产品和其他类似的产品的相关数据(如:价格,上架时间,加入购物车量,产品描述,促销活动情况),从而分析该产品销量远高于同类产品的原因。

上文如有错的地方,欢迎大家来指点。谢谢观看。

继续阅读