拓端tecdat|R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

原文链接：http://tecdat.cn/?p=6062

原文出处：拓端数据部落公众号

这场灾难以拯救“妇女和儿童第一”而闻名，所以让我们来看看性别和年龄变量。我们将从乘客的性别开始。将数据重新加载到R后，请查看此变量的摘要：

> summary(train$Sex)

female male

314 577

所以我们看到大多数乘客都是男性。对幸存的男性和女性进行比较：

> prop.table(table(train$Sex, train$Survived))

0 1

female 0.09090909 0.26150393

male 0.52525253 0.12233446

我们希望看到的是行比例，即存活的每个性别的比例。

> prop.table(table(train$Sex, train$Survived),1)

0 1

female 0.2579618 0.7420382

male 0.8110919 0.1889081

我们现在可以看到大多数女性幸存下来，并且男性的比例非常低。

> test$Survived <- 0

> test$Survived[test$Sex == 'female'] <- 1

在这里，我们添加“everyone dies”预测列，将零指定给整个列。然后我们改变其中女性乘客为1。

现在让我们写一个新的提交并发送给Kaggle

拓端tecdat|R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

现在让我们研究年龄变量：

> summary(train$Age)

Min. 1st Qu. Median Mean 3rd Qu. Max. NA's

0.42 20.12 28.00 29.70 38.00 80.00 177

数据分析中缺少值，这可能会导致各种问题，而这些问题有时很难处理。目前我们可以假设177个缺失值是其余乘客的平均年龄。

现在我们有一个连续的变量，我们创建一个新的变量“Child”来表明乘客是否低于18岁：

> train$Child <- 0

> train$Child[train$Age < 18] <- 1

现在我们要创建一个包含性别和年龄的表，以查看不同子集的生存比例。首先让我们尝试找出不同子集的幸存者数量：

> aggregate(Survived ~ Child + Sex, data=train, FUN=sum)

Child Sex Survived

1 0 female 195

2 1 female 38

3 0 male 86

4 1 male 23

但我们不知道每个子集中的总人数; 让我们来看看：

> aggregate(Survived ~ Child + Sex, data=train, FUN=length)

Child Sex Survived

1 0 female 259

2 1 female 55

3 0 male 519

4 1 male 58

我们需要创建一个函数，它将子集向量作为输入，然后进行除法以给出一个比例。

> aggregate(Survived ~ Child + Sex, data=train, FUN=function(x) {sum(x)/length(x)})

Child Sex Survived

1 0 female 0.7528958

2 1 female 0.6909091

3 0 male 0.1657033

4 1 male 0.3965517

虽票价是一个连续变量，需要将其简化为可以轻松制表的内容。我们将票价收入不到10美元，10美元到20美元，20美元到30美元以及30美元以上，并将其存储到一个新变量中：

> train$Fare2 <- '30+'

> train$Fare2[train$Fare < 30 & train$Fare >= 20] <- '20-30'

> train$Fare2[train$Fare < 20 & train$Fare >= 10] <- '10-20'

> train$Fare2[train$Fare < 10] <- '<10'

现在让我们运行一个更长的聚合函数，看看这里有什么有趣的东西：

> aggregate(Survived ~ Fare2 + Pclass + Sex, data=train, FUN=function(x) {sum(x)/length(x)})

Fare2 Pclass Sex Survived

1 20-30 1 female 0.8333333

2 30+ 1 female 0.9772727

3 10-20 2 female 0.9142857

4 20-30 2 female 0.9000000

5 30+ 2 female 1.0000000

6 <10 3 female 0.5937500

7 10-20 3 female 0.5813953

8 20-30 3 female 0.3333333 **

9 30+ 3 female 0.1250000 **

10 <10 1 male 0.0000000

11 20-30 1 male 0.4000000

12 30+ 1 male 0.3837209

13 <10 2 male 0.0000000

14 10-20 2 male 0.1587302

15 20-30 2 male 0.1600000

16 30+ 2 male 0.2142857

17 <10 3 male 0.1115385

18 10-20 3 male 0.2368421

19 20-30 3 male 0.1250000

20 30+ 3 male 0.2400000

大部分男性和票价表现效果不好。

让我们根据新的见解做出新的预测。

> test$Survived <- 0

> test$Survived[test$Sex == 'female'] <- 1

> test$Survived[test$Sex == 'female' & test$Pclass == 3 & test$Fare >= 20] <- 0

好的，让我们创建输出文件，看看我们是否做得更好！

拓端tecdat|R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

有问题欢迎下方留言！

拓端tecdat|R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

最受欢迎的见解

1.数据类岗位需求的数据面

2.探析大数据期刊文章研究热点

3.机器学习助推快时尚精准销售预测

4.用机器学习识别不断变化的股市状况—隐马尔科夫模型(HMM)的应用

5.数据聆听人民网留言板的那些“网事”

6.在r语言中使用GAM（广义相加模型）进行电力负荷时间序列分析

7.用数据解读体育决策：挖掘体育赛事新价值

8.把握出租车行驶的数据脉搏

9.智能门锁“剁手”数据攻略

拓端tecdat|R语言Kaggle泰坦尼克号性别阶级模型数据分析案例

原文链接：http://tecdat.cn/?p=6062

原文出处：拓端数据部落公众号

继续阅读

R语言| 中介效应分析，Mediation包和BruceR包，循环Process函数

一套完整实用的IT规划方法论

miRNA与转录组联合分析

高级数据分析师凭什么月薪三万？一文解答你所有困惑

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

SQL常见计算方法总结

一篇文章带你使用建模的思路解决泰迪杯-智慧政务问题（答复意见评价含代码）

【R语言】GARCH模型的应用一、数据来源二、数据分析三、模型建立四、模型优化五、结论六、实现代码七、参考资料

数据分析实战20绝技

Python TensorFlow循环神经网络RNN-LSTM神经网络预测股票市场价格时间序列和MSE评估准确性

Matlab随机波动率SV、GARCH用MCMC马尔可夫链蒙特卡罗方法分析汇率时间序列

Lagrange插值的R语言实现

从大数据看技术，为什么天猫双11是史上最大数字经济节日

R语言-相关性分析函数

拓端tecdat|R语言弹性网络Elastic Net正则化惩罚回归模型交叉验证可视化

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开