淘寶嬰兒産品銷售的資料分析

資料來源：https://tianchi.aliyun.com/home/

資料分析的步驟：提出問題，了解資料，資料清洗，模型建構，資料可視化

一、提出問題

使用者分析：

1、哪個月份使用者最活躍？

2、最活躍月份中的具體活躍情況如何？

3、使用者嬰兒性别比例情況？

4、男、女嬰兒分别購買的産品，排名前3的産品是啥？

5、嬰兒年齡與購買量之間的聯系？

6、不同年齡段嬰兒的熱銷産品情況？

産品分析：

1、哪種商品種類銷量最多？

2、2013與2014年雙11銷量對比。

二、了解資料

資料來源：阿裡巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

淘寶嬰兒産品銷售的資料分析

表1 為嬰兒資訊

（包含使用者id，嬰兒的生日，嬰兒的性别，0代表男，1代表女，2代表不知道）

表2 為購買的嬰兒産品資訊

（包含使用者id，商品id，産品id，品類id，屬性，購買數量，購買日期）

三、資料清洗

選擇子集，列名重命名，删除重複項，缺失值處理，一緻化處理，資料排序，異常值處理

1、選擇子集

淘寶嬰兒産品銷售的資料分析

表1使用者嬰兒資訊資料

淘寶嬰兒産品銷售的資料分析

表2購買的嬰兒産品資訊資料

使用VLOOKUP多表聯查，把表1中的【birthday生日】和【gender性别】兩個字段複制到表2中。

淘寶嬰兒産品銷售的資料分析

生日

淘寶嬰兒産品銷售的資料分析

性别

因為有部分生日和性别相關的資料并不存在此表中，是以會出現N/A。這邊提前把N/A 設為空值。

2、清單重命名

上面已經提前把英文的列名都重命名為中文了。

3、删除重複項

【使用者id】是唯一辨別，删除表1中的【使用者id】重複值。發現并沒有重複值

淘寶嬰兒産品銷售的資料分析

4、缺失值處理

通過篩選功能，檢視到有【商品屬性】【生日】和【性别】存在缺失值。屬性由于是指如産品的産地，保存期限等代号資訊，不容易進行補充，是以設定為空值；【生日】和【性别】的缺失值在前面已被設定為空值了，由于缺失值太多，不便填補。

5、一緻化處理

通過“分列”或者“函數：left 和 find” 處理【購買時間】的時間格式。

這邊用“分列”進行操作。

由于分列後的結果會覆寫右邊的資料，是以要提前把【購買時間】這一列的資料複制到最右邊。

選擇固定寬度

淘寶嬰兒産品銷售的資料分析

6、資料排序

用“篩選”對時間進行排序。

7、異常值處理

本次資料沒有發現異常值。

四、構模組化型以及資料可視化

淘寶嬰兒産品銷售的資料分析

建議：

1.可在2月份時減少庫存量，但確定11月份的庫存量充足以應付激增的銷量。

2.11月11-12日兩天應該增加員工數量和庫存量去滿足使用者需求。

3.由于沒有分析出5月份使用者活躍度在上半年最高的原因，故應多元度去分析一下6月份數量下降的原因。

4.應該分析更多元度會導緻銷量增長的原因，然後可繼續使用此促進增長方法。

5.選擇更多适合2歲嬰兒的産品進行銷售。

6.可以恰當增加品類【28】的庫存量，減少【122650008】的。

7.采集銷量最高的産品和其他類似的産品的相關資料（如：價格，上架時間，加入購物車量，産品描述，促銷活動情況），進而分析該産品銷量遠高于同類産品的原因。

上文如有錯的地方，歡迎大家來指點。謝謝觀看。

淘寶嬰兒産品銷售的資料分析

繼續閱讀

python中哪些函數可以進行清單排序？

This application failed to start because it could not find or load the Qt platform plugin "

好省，我第一步加入，應該先做什麼❓

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

一套完整實用的IT規劃方法論

miRNA與轉錄組聯合分析

進階資料分析師憑什麼月薪三萬？一文解答你所有困惑

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

Excel多行轉多列

SQL常見計算方法總結

一篇文章帶你使用模組化的思路解決泰迪杯-智慧政務問題（答複意見評價含代碼）

資料分析實戰20絕技

Excel如何将小寫轉大寫金額

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

個項目的開發過程及成員組成

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開