泰坦尼克号生存預測（下）-預測和特征構造

2022-10-27 12:24:59

預測

如下代碼，使用邏輯回歸生存預測。

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression

data=pd.read_csv(r"E:\MLdata\kaggle_titanic\processing.csv")

# print(data)

data_train=data[data['Survived']!=-1].drop(["PassengerId"],axis=1)
data_train_x=data_train.iloc[:,:-1]
data_train_y=data_train.iloc[:,-1]
# print(data_train_x.columns)

Lr=LogisticRegression()
Lr.fit(data_train_x,data_train_y)

data_predict=data[data['Survived']==-1].drop(['Survived'],axis=1)
data_predict_x=data_predict.drop(['PassengerId'],axis=1)
# print(data_predict_x.columns)

label=Lr.predict(data_predict_x)

# standard_label=pd.read_csv(r"E:\MLdata\kaggle_titanic\gender_submission.csv")["Survived"]
# print(np.sum(standard_label==label)/standard_label.shape[0])

data_predict.insert(data_predict.columns.size,"Survived",label)
df=pd.DataFrame(data=data_predict.loc[:,['PassengerId',"Survived"]].values,columns=["PassengerId","Survived"])
df.to_csv(r"E:\MLdata\kaggle_titanic\res\t2.csv",index=False)

構造特征

特征構造主要考慮如下方面：

數值特征的非線性因素，如對一些數值特征進行指數放大、縮小
特征與特征之間的關聯關系

由于兒童更能得到照顧，是以構造特征：

data_train['isChild']=(data_train['Age']<=10).astype(int)
# data_train['isChild'][:3]
# 0    0
# 1    0
# 2    0
# Name: isChild, dtype: int32

年齡越大越不易生存，是以放大年齡：

data_train['Age']=data_train['Age']*data_train['Age']

考慮幾等艙（比如一等）和年輕的更容易生存，故構造特征Age∗Class

∗

：

data_train['Age_Pclass']=data_train['Age']*data_train['Pclass']

import sklearn.preprocessing as preprocessing
scaler=preprocessing.StandardScaler()
data_train['Age']=scaler.fit_transform(data_train['Age'].values.reshape(-1,1))
data_train['Age_Pclass']=scaler.fit_transform(data_train['Age_Pclass'].values.reshape(-1,1))

泰坦尼克号生存預測（下）-預測和特征構造

預測

構造特征

繼續閱讀

一文弄懂LogSumExp技巧

拓端tecdat|r語言程式設計指導空間可視化繪制道路交通安全事故地圖

UML圖入門——學習《大話設計模式》筆記

什麼是UML類圖

【SQLALCHEMY】表關聯關系1、一對一或一對多2、多對多

PET-AI解讀 | rs-fMRI的GNN和TCN模組化（圖建構，時間序列歸一化）

特征工程中的歸一化問題

基于邏輯回歸和神經網絡識别手寫數字（從0到9）（Matlab代碼實作）

解決Transformer固有缺陷：複旦大學等提出線性複雜度SOFT

matlab 神經網絡 ANN 分類

使用Scikit-Learn輕松實作資料縮放

為什麼要做特征的歸一化/标準化？

【基礎算法】常見的ML、DL程式設計題

6-1、HFSS激勵類型

資料的歸一化（Normalization）、标準化（Standardization）

資料挖掘-歸一化