天天看點

SPSS Modeler泰坦尼克号幸存者分析

資料來源:“Kaggle泰坦尼克号挑戰杯”競賽泰坦尼克号資料

PS:需要建立一個帳戶才能通路資料。

下載下傳的資料是.CSV格式

SPSS Modeler泰坦尼克号幸存者分析

1. 資料介紹

資料集中共有12個字段,PassengerId:乘客編号,Survived:乘客是否存活,Pclass:乘客所在的船艙等級;Name:乘客姓名,Sex:乘客性别,Age:乘客年齡,SibSp:乘客的兄弟姐妹和配偶數量,Parch:乘客的父母與子女數量,Ticket:票的編号,Fare:票價,Cabin:座位号,Embarked:乘客登船碼頭。 共有891位乘客的資料資訊。其中177位乘客的年齡資料缺失,2位乘客的登船碼頭資料缺失,687位乘客的船艙資料缺失。

SPSS Modeler泰坦尼克号幸存者分析

2.分析角度

所有好的資料分析項目都是從回答問題開始的。 現在,我們已經知道了列類别的資料,讓我們來思考一些我們想從資料中得到的問題或見解。 這裡有一個問題清單:

一些基本的問題:

1). 泰坦尼克号上的乘客是誰?(年齡、性别、階級、…等)

2). 乘客位于哪一級甲闆?這和他們的船艙等級有什麼關系?

3). 乘客是從哪裡來的?

4). 誰獨自一人,誰和家人在一起?

然後我們再深入探讨一個更廣泛的問題:

5). 是什麼因素幫助人們在沉船事故中幸存下來?

3. 資料導入

由于下載下傳的資料是.CSV格式,是以使用源中的變量檔案導入資料

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

字段定界符選擇逗号和換行字元,由于name字段中的資料中有逗号,是以在引号欄選擇成對丢棄雙引号。

SPSS Modeler泰坦尼克号幸存者分析

4.空值處理

其中177位乘客的年齡資料缺失,2位乘客的登船碼頭資料缺失,687位乘客的船艙資料缺失。

缺失值通常有兩種處理方法

(1)删除有缺失值的記錄

(2)插補缺失值

Age缺失值用均值進行插補,在進行可視化之前删除登船碼頭、乘客船艙缺失資料

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

生成超節點

SPSS Modeler泰坦尼克号幸存者分析

再次稽核

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

使用選擇節點丢棄登船港字段有空值的記錄

SPSS Modeler泰坦尼克号幸存者分析

同樣的方式删除Cabin字段中的空值記錄

并且删除值為T的無用記錄

SPSS Modeler泰坦尼克号幸存者分析

5.可視化分析

統計每個等級中的男女比例

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

第三等級的男性比女性多,這是一個有趣的發現。

然而,男性、女性和兒童的分離可能是更有用的。在災難逃生時有“婦女兒童優先"的政策,是以把乘客分為男、女、兒童,以便後續分析。我們将16歲以下的任何一個人視為一個孩子。使用填充節點來實作這個操作。

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

2). 乘客位于哪一級甲闆?這和他們的船艙等級有什麼關系?我們隻需要甲闆的第一個字母來分類它的等級(例如A,B,C,D,E,F,G)通過填充節點,使用函數提取第一個字母。

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

3). 乘客是從哪裡來的?

Embarked(登船港)列有C、Q和S值,這些代表的是瑟堡,皇後鎮,南安普敦。

SPSS Modeler泰坦尼克号幸存者分析

一個有趣的發現是,在皇後鎮,幾乎所有登上的乘客都是三等艙。 在那段時間内對小鎮的經濟做進一步調查将會非常有趣。

4). 誰獨自一人,誰和家人在一起?

未完待續

繼續閱讀