資料來源:https://tianchi.aliyun.com/home/
資料分析的步驟:提出問題,了解資料,資料清洗,模型建構,資料可視化
一、提出問題
使用者分析:
1、哪個月份使用者最活躍?
2、最活躍月份中的具體活躍情況如何?
3、使用者嬰兒性别比例情況?
4、男、女嬰兒分别購買的産品,排名前3的産品是啥?
5、嬰兒年齡與購買量之間的聯系?
6、不同年齡段嬰兒的熱銷産品情況?
産品分析:
1、哪種商品種類銷量最多?
2、2013與2014年雙11銷量對比。
二、了解資料
資料來源:阿裡巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

表1 為嬰兒資訊
(包含使用者id,嬰兒的生日,嬰兒的性别,0代表男,1代表女,2代表不知道)
表2 為購買的嬰兒産品資訊
(包含使用者id,商品id,産品id,品類id,屬性,購買數量,購買日期)
三、資料清洗
選擇子集,列名重命名,删除重複項,缺失值處理,一緻化處理,資料排序,異常值處理
1、選擇子集
表1使用者嬰兒資訊資料
表2購買的嬰兒産品資訊資料
使用VLOOKUP多表聯查,把表1中的【birthday生日】和【gender性别】兩個字段複制到表2中。
生日
性别
因為有部分生日和性别相關的資料并不存在此表中,是以會出現N/A。這邊提前把N/A 設為空值。
2、清單重命名
上面已經提前把英文的列名都重命名為中文了。
3、删除重複項
【使用者id】是唯一辨別,删除表1中的【使用者id】重複值。發現并沒有重複值
4、缺失值處理
通過篩選功能,檢視到有【商品屬性】【生日】和【性别】存在缺失值。屬性由于是指如産品的産地,保存期限等代号資訊,不容易進行補充,是以設定為空值;【生日】和【性别】的缺失值在前面已被設定為空值了,由于缺失值太多,不便填補。
5、一緻化處理
通過“分列”或者“函數:left 和 find” 處理【購買時間】的時間格式。
這邊用“分列”進行操作。
由于分列後的結果會覆寫右邊的資料,是以要提前把【購買時間】這一列的資料複制到最右邊。
選擇固定寬度
6、資料排序
用“篩選”對時間進行排序。
7、異常值處理
本次資料沒有發現異常值。
四、構模組化型以及資料可視化
建議:
1.可在2月份時減少庫存量,但確定11月份的庫存量充足以應付激增的銷量。
2.11月11-12日兩天應該增加員工數量和庫存量去滿足使用者需求。
3.由于沒有分析出5月份使用者活躍度在上半年最高的原因,故應多元度去分析一下6月份數量下降的原因。
4.應該分析更多元度會導緻銷量增長的原因,然後可繼續使用此促進增長方法。
5.選擇更多适合2歲嬰兒的産品進行銷售。
6.可以恰當增加品類【28】的庫存量,減少【122650008】的。
7.采集銷量最高的産品和其他類似的産品的相關資料(如:價格,上架時間,加入購物車量,産品描述,促銷活動情況),進而分析該産品銷量遠高于同類産品的原因。
上文如有錯的地方,歡迎大家來指點。謝謝觀看。