天天看点

SPSS Modeler泰坦尼克号幸存者分析

数据来源:“Kaggle泰坦尼克号挑战杯”竞赛泰坦尼克号数据

PS:需要创建一个帐户才能访问数据。

下载的数据是.CSV格式

SPSS Modeler泰坦尼克号幸存者分析

1. 数据介绍

数据集中共有12个字段,PassengerId:乘客编号,Survived:乘客是否存活,Pclass:乘客所在的船舱等级;Name:乘客姓名,Sex:乘客性别,Age:乘客年龄,SibSp:乘客的兄弟姐妹和配偶数量,Parch:乘客的父母与子女数量,Ticket:票的编号,Fare:票价,Cabin:座位号,Embarked:乘客登船码头。 共有891位乘客的数据信息。其中177位乘客的年龄数据缺失,2位乘客的登船码头数据缺失,687位乘客的船舱数据缺失。

SPSS Modeler泰坦尼克号幸存者分析

2.分析角度

所有好的数据分析项目都是从回答问题开始的。 现在,我们已经知道了列类别的数据,让我们来思考一些我们想从数据中得到的问题或见解。 这里有一个问题列表:

一些基本的问题:

1). 泰坦尼克号上的乘客是谁?(年龄、性别、阶级、…等)

2). 乘客位于哪一级甲板?这和他们的船舱等级有什么关系?

3). 乘客是从哪里来的?

4). 谁独自一人,谁和家人在一起?

然后我们再深入探讨一个更广泛的问题:

5). 是什么因素帮助人们在沉船事故中幸存下来?

3. 数据导入

由于下载的数据是.CSV格式,所以使用源中的变量文件导入数据

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

字段定界符选择逗号和换行字符,由于name字段中的数据中有逗号,所以在引号栏选择成对丢弃双引号。

SPSS Modeler泰坦尼克号幸存者分析

4.空值处理

其中177位乘客的年龄数据缺失,2位乘客的登船码头数据缺失,687位乘客的船舱数据缺失。

缺失值通常有两种处理方法

(1)删除有缺失值的记录

(2)插补缺失值

Age缺失值用均值进行插补,在进行可视化之前删除登船码头、乘客船舱缺失数据

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

生成超节点

SPSS Modeler泰坦尼克号幸存者分析

再次审核

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

使用选择节点丢弃登船港字段有空值的记录

SPSS Modeler泰坦尼克号幸存者分析

同样的方式删除Cabin字段中的空值记录

并且删除值为T的无用记录

SPSS Modeler泰坦尼克号幸存者分析

5.可视化分析

统计每个等级中的男女比例

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

第三等级的男性比女性多,这是一个有趣的发现。

然而,男性、女性和儿童的分离可能是更有用的。在灾难逃生时有“妇女儿童优先"的政策,所以把乘客分为男、女、儿童,以便后续分析。我们将16岁以下的任何一个人视为一个孩子。使用填充节点来实现这个操作。

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

2). 乘客位于哪一级甲板?这和他们的船舱等级有什么关系?我们只需要甲板的第一个字母来分类它的等级(例如A,B,C,D,E,F,G)通过填充节点,使用函数提取第一个字母。

SPSS Modeler泰坦尼克号幸存者分析
SPSS Modeler泰坦尼克号幸存者分析

3). 乘客是从哪里来的?

Embarked(登船港)列有C、Q和S值,这些代表的是瑟堡,皇后镇,南安普敦。

SPSS Modeler泰坦尼克号幸存者分析

一个有趣的发现是,在皇后镇,几乎所有登上的乘客都是三等舱。 在那段时间内对小镇的经济做进一步调查将会非常有趣。

4). 谁独自一人,谁和家人在一起?

未完待续

继续阅读