泰坦尼克号生存预测（下）-预测和特征构造

2022-10-27 12:24:59

预测

如下代码，使用逻辑回归生存预测。

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression

data=pd.read_csv(r"E:\MLdata\kaggle_titanic\processing.csv")

# print(data)

data_train=data[data['Survived']!=-1].drop(["PassengerId"],axis=1)
data_train_x=data_train.iloc[:,:-1]
data_train_y=data_train.iloc[:,-1]
# print(data_train_x.columns)

Lr=LogisticRegression()
Lr.fit(data_train_x,data_train_y)

data_predict=data[data['Survived']==-1].drop(['Survived'],axis=1)
data_predict_x=data_predict.drop(['PassengerId'],axis=1)
# print(data_predict_x.columns)

label=Lr.predict(data_predict_x)

# standard_label=pd.read_csv(r"E:\MLdata\kaggle_titanic\gender_submission.csv")["Survived"]
# print(np.sum(standard_label==label)/standard_label.shape[0])

data_predict.insert(data_predict.columns.size,"Survived",label)
df=pd.DataFrame(data=data_predict.loc[:,['PassengerId',"Survived"]].values,columns=["PassengerId","Survived"])
df.to_csv(r"E:\MLdata\kaggle_titanic\res\t2.csv",index=False)

构造特征

特征构造主要考虑如下方面：

数值特征的非线性因素，如对一些数值特征进行指数放大、缩小
特征与特征之间的关联关系

由于儿童更能得到照顾，所以构造特征：

data_train['isChild']=(data_train['Age']<=10).astype(int)
# data_train['isChild'][:3]
# 0    0
# 1    0
# 2    0
# Name: isChild, dtype: int32

年龄越大越不易生存，所以放大年龄：

data_train['Age']=data_train['Age']*data_train['Age']

考虑几等舱（比如一等）和年轻的更容易生存，故构造特征Age∗Class

∗

：

data_train['Age_Pclass']=data_train['Age']*data_train['Pclass']

import sklearn.preprocessing as preprocessing
scaler=preprocessing.StandardScaler()
data_train['Age']=scaler.fit_transform(data_train['Age'].values.reshape(-1,1))
data_train['Age_Pclass']=scaler.fit_transform(data_train['Age_Pclass'].values.reshape(-1,1))

泰坦尼克号生存预测（下）-预测和特征构造

预测

构造特征

继续阅读

一文弄懂LogSumExp技巧

拓端tecdat|r语言编程指导空间可视化绘制道路交通安全事故地图

UML图入门——学习《大话设计模式》笔记

什么是UML类图

【SQLALCHEMY】表关联关系1、一对一或一对多2、多对多

PET-AI解读 | rs-fMRI的GNN和TCN建模（图构建，时间序列归一化）

特征工程中的归一化问题

基于逻辑回归和神经网络识别手写数字（从0到9）（Matlab代码实现）

解决Transformer固有缺陷：复旦大学等提出线性复杂度SOFT

matlab 神经网络 ANN 分类

使用Scikit-Learn轻松实现数据缩放

为什么要做特征的归一化/标准化？

【基础算法】常见的ML、DL编程题

6-1、HFSS激励类型

数据的归一化（Normalization）、标准化（Standardization）

数据挖掘-归一化