資料來源:“Kaggle泰坦尼克号挑戰杯”競賽泰坦尼克号資料
PS:需要建立一個帳戶才能通路資料。
下載下傳的資料是.CSV格式
1. 資料介紹
資料集中共有12個字段,PassengerId:乘客編号,Survived:乘客是否存活,Pclass:乘客所在的船艙等級;Name:乘客姓名,Sex:乘客性别,Age:乘客年齡,SibSp:乘客的兄弟姐妹和配偶數量,Parch:乘客的父母與子女數量,Ticket:票的編号,Fare:票價,Cabin:座位号,Embarked:乘客登船碼頭。 共有891位乘客的資料資訊。其中177位乘客的年齡資料缺失,2位乘客的登船碼頭資料缺失,687位乘客的船艙資料缺失。
2.分析角度
所有好的資料分析項目都是從回答問題開始的。 現在,我們已經知道了列類别的資料,讓我們來思考一些我們想從資料中得到的問題或見解。 這裡有一個問題清單:
一些基本的問題:
1). 泰坦尼克号上的乘客是誰?(年齡、性别、階級、…等)
2). 乘客位于哪一級甲闆?這和他們的船艙等級有什麼關系?
3). 乘客是從哪裡來的?
4). 誰獨自一人,誰和家人在一起?
然後我們再深入探讨一個更廣泛的問題:
5). 是什麼因素幫助人們在沉船事故中幸存下來?
3. 資料導入
由于下載下傳的資料是.CSV格式,是以使用源中的變量檔案導入資料
字段定界符選擇逗号和換行字元,由于name字段中的資料中有逗号,是以在引号欄選擇成對丢棄雙引号。
4.空值處理
其中177位乘客的年齡資料缺失,2位乘客的登船碼頭資料缺失,687位乘客的船艙資料缺失。
缺失值通常有兩種處理方法
(1)删除有缺失值的記錄
(2)插補缺失值
Age缺失值用均值進行插補,在進行可視化之前删除登船碼頭、乘客船艙缺失資料
生成超節點
再次稽核
使用選擇節點丢棄登船港字段有空值的記錄
同樣的方式删除Cabin字段中的空值記錄
并且删除值為T的無用記錄
5.可視化分析
統計每個等級中的男女比例
第三等級的男性比女性多,這是一個有趣的發現。
然而,男性、女性和兒童的分離可能是更有用的。在災難逃生時有“婦女兒童優先"的政策,是以把乘客分為男、女、兒童,以便後續分析。我們将16歲以下的任何一個人視為一個孩子。使用填充節點來實作這個操作。
2). 乘客位于哪一級甲闆?這和他們的船艙等級有什麼關系?我們隻需要甲闆的第一個字母來分類它的等級(例如A,B,C,D,E,F,G)通過填充節點,使用函數提取第一個字母。
3). 乘客是從哪裡來的?
Embarked(登船港)列有C、Q和S值,這些代表的是瑟堡,皇後鎮,南安普敦。
一個有趣的發現是,在皇後鎮,幾乎所有登上的乘客都是三等艙。 在那段時間内對小鎮的經濟做進一步調查将會非常有趣。
4). 誰獨自一人,誰和家人在一起?
未完待續