天天看點

淘寶嬰兒産品銷售的資料分析

資料來源:https://tianchi.aliyun.com/home/

資料分析的步驟:提出問題,了解資料,資料清洗,模型建構,資料可視化

一、提出問題

使用者分析:

1、哪個月份使用者最活躍?

2、最活躍月份中的具體活躍情況如何?

3、使用者嬰兒性别比例情況?

4、男、女嬰兒分别購買的産品,排名前3的産品是啥?

5、嬰兒年齡與購買量之間的聯系?

6、不同年齡段嬰兒的熱銷産品情況?

産品分析:

1、哪種商品種類銷量最多?

2、2013與2014年雙11銷量對比。

二、了解資料

資料來源:阿裡巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

淘寶嬰兒産品銷售的資料分析

表1 為嬰兒資訊

(包含使用者id,嬰兒的生日,嬰兒的性别,0代表男,1代表女,2代表不知道)

表2 為購買的嬰兒産品資訊

(包含使用者id,商品id,産品id,品類id,屬性,購買數量,購買日期)

三、資料清洗

選擇子集,列名重命名,删除重複項,缺失值處理,一緻化處理,資料排序,異常值處理

1、選擇子集

淘寶嬰兒産品銷售的資料分析

表1使用者嬰兒資訊資料

淘寶嬰兒産品銷售的資料分析

表2購買的嬰兒産品資訊資料

使用VLOOKUP多表聯查,把表1中的【birthday生日】和【gender性别】兩個字段複制到表2中。

淘寶嬰兒産品銷售的資料分析

生日

淘寶嬰兒産品銷售的資料分析

性别

因為有部分生日和性别相關的資料并不存在此表中,是以會出現N/A。這邊提前把N/A 設為空值。

2、清單重命名

上面已經提前把英文的列名都重命名為中文了。

3、删除重複項

【使用者id】是唯一辨別,删除表1中的【使用者id】重複值。發現并沒有重複值

淘寶嬰兒産品銷售的資料分析

4、缺失值處理

通過篩選功能,檢視到有【商品屬性】【生日】和【性别】存在缺失值。屬性由于是指如産品的産地,保存期限等代号資訊,不容易進行補充,是以設定為空值;【生日】和【性别】的缺失值在前面已被設定為空值了,由于缺失值太多,不便填補。

5、一緻化處理

通過“分列”或者“函數:left 和 find” 處理【購買時間】的時間格式。

這邊用“分列”進行操作。

由于分列後的結果會覆寫右邊的資料,是以要提前把【購買時間】這一列的資料複制到最右邊。

選擇固定寬度

淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析

6、資料排序

用“篩選”對時間進行排序。

7、異常值處理

本次資料沒有發現異常值。

四、構模組化型以及資料可視化

淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析
淘寶嬰兒産品銷售的資料分析

建議:

1.可在2月份時減少庫存量,但確定11月份的庫存量充足以應付激增的銷量。

2.11月11-12日兩天應該增加員工數量和庫存量去滿足使用者需求。

3.由于沒有分析出5月份使用者活躍度在上半年最高的原因,故應多元度去分析一下6月份數量下降的原因。

4.應該分析更多元度會導緻銷量增長的原因,然後可繼續使用此促進增長方法。

5.選擇更多适合2歲嬰兒的産品進行銷售。

6.可以恰當增加品類【28】的庫存量,減少【122650008】的。

7.采集銷量最高的産品和其他類似的産品的相關資料(如:價格,上架時間,加入購物車量,産品描述,促銷活動情況),進而分析該産品銷量遠高于同類産品的原因。

上文如有錯的地方,歡迎大家來指點。謝謝觀看。

繼續閱讀