数据来源:“Kaggle泰坦尼克号挑战杯”竞赛泰坦尼克号数据
PS:需要创建一个帐户才能访问数据。
下载的数据是.CSV格式
1. 数据介绍
数据集中共有12个字段,PassengerId:乘客编号,Survived:乘客是否存活,Pclass:乘客所在的船舱等级;Name:乘客姓名,Sex:乘客性别,Age:乘客年龄,SibSp:乘客的兄弟姐妹和配偶数量,Parch:乘客的父母与子女数量,Ticket:票的编号,Fare:票价,Cabin:座位号,Embarked:乘客登船码头。 共有891位乘客的数据信息。其中177位乘客的年龄数据缺失,2位乘客的登船码头数据缺失,687位乘客的船舱数据缺失。
2.分析角度
所有好的数据分析项目都是从回答问题开始的。 现在,我们已经知道了列类别的数据,让我们来思考一些我们想从数据中得到的问题或见解。 这里有一个问题列表:
一些基本的问题:
1). 泰坦尼克号上的乘客是谁?(年龄、性别、阶级、…等)
2). 乘客位于哪一级甲板?这和他们的船舱等级有什么关系?
3). 乘客是从哪里来的?
4). 谁独自一人,谁和家人在一起?
然后我们再深入探讨一个更广泛的问题:
5). 是什么因素帮助人们在沉船事故中幸存下来?
3. 数据导入
由于下载的数据是.CSV格式,所以使用源中的变量文件导入数据
字段定界符选择逗号和换行字符,由于name字段中的数据中有逗号,所以在引号栏选择成对丢弃双引号。
4.空值处理
其中177位乘客的年龄数据缺失,2位乘客的登船码头数据缺失,687位乘客的船舱数据缺失。
缺失值通常有两种处理方法
(1)删除有缺失值的记录
(2)插补缺失值
Age缺失值用均值进行插补,在进行可视化之前删除登船码头、乘客船舱缺失数据
生成超节点
再次审核
使用选择节点丢弃登船港字段有空值的记录
同样的方式删除Cabin字段中的空值记录
并且删除值为T的无用记录
5.可视化分析
统计每个等级中的男女比例
第三等级的男性比女性多,这是一个有趣的发现。
然而,男性、女性和儿童的分离可能是更有用的。在灾难逃生时有“妇女儿童优先"的政策,所以把乘客分为男、女、儿童,以便后续分析。我们将16岁以下的任何一个人视为一个孩子。使用填充节点来实现这个操作。
2). 乘客位于哪一级甲板?这和他们的船舱等级有什么关系?我们只需要甲板的第一个字母来分类它的等级(例如A,B,C,D,E,F,G)通过填充节点,使用函数提取第一个字母。
3). 乘客是从哪里来的?
Embarked(登船港)列有C、Q和S值,这些代表的是瑟堡,皇后镇,南安普敦。
一个有趣的发现是,在皇后镇,几乎所有登上的乘客都是三等舱。 在那段时间内对小镇的经济做进一步调查将会非常有趣。
4). 谁独自一人,谁和家人在一起?
未完待续