天天看點

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

項目背景

RMS泰坦尼克号的沉沒是曆史上最臭名昭着的沉船之一。1912年4月15日,在她的處女航中,泰坦尼克号在與冰山相撞後沉沒,在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會,并導緻了更好的船舶安全規定。

造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。盡管幸存下沉有一些運氣因素,但有些人比其他人更容易生存,比如女人,孩子和上流社會。

在這個挑戰中,我們要求您完成對哪些人可能存活的分析。特别是,我們要求您運用機器學習工具來預測哪些乘客幸免于悲劇。

操作步驟

1、資料讀取

2、分析資料

3、缺失資料處理

4、特征工程

5、拆分資料

5、 建立模型

6、 預測

7、評估模型

資料讀取

先将可能需要使用的包導入

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

讀取資料

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

head()和.describe().info()函數連檢視資料

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

缺失值查詢

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

對缺失值填充均值

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

特征分析與處理

采用seaborn繪圖函數庫作可視化分析

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

上圖變量均可判斷與生存率相關,'PassengerId','Name'和'Ticket'目前看不出有什麼特點,暫時不考慮他們

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

資料标準化,分割資料集、訓練模型、預測、評估模型、畫auc圖

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

以上用的是決策樹算法,下面是随機森林算法、和邏輯回歸算法

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

邏輯回歸算法

python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率
python決策樹邏輯回歸_python決策樹&随機森林&邏輯回歸預測泰坦尼克号生存率

總結:此次事件中,并不完全符合物競天擇,适者生存的法則,比如,女士的存活率比男士的高,年紀大的都年輕的生存率高,但是有錢的坐一等艙的、買高票價的,存活率比二等、低票價的存活率高,說明人與人之間還不是很平等的。當然此次算法中丢棄了一些特征變量可能會對模型有影響,此文章僅表達資料分析的一些方法,如有不對之處,還請多多指教~

另附各類算法優缺點:

決策樹

優點

1. 計算複雜度不高,易于了解和解釋,可以了解決策樹所表達的意義;

2. 資料預處理階段比較簡單,且可以處理缺失資料;

3. 能夠同時處理資料型和分類型屬性,且可對有許多屬性的資料集構造決策樹;

缺點:

1. 對于那些各類别樣本數目不一緻的資料,資訊增益的結果偏向于那些具有更多數值的屬性;

2. 對噪聲資料較為敏感;

3. 容易出現過拟合問題;

4. 忽略了資料集中屬性之間的相關性;

5.處理缺失資料時的困難

随機森林

優點

1、 在目前的很多資料集上,相對其他算法有着很大的優勢,表現良好

2、它能夠處理很高次元(feature很多)的資料,并且不用做特征選擇

3、在訓練完後,它能夠給出哪些feature比較重要

4、在建立随機森林的時候,對generlization error使用的是無偏估計,模型泛化能力強

缺點:

1、随機森林已經被證明在某些噪音較大的分類或回歸問題上會過拟

2、對于有不同取值的屬性的資料,取值劃分較多的屬性會對随機森林産生更大的影響,是以随機森林在這種資料上産出的屬性權值是不可信的。

Logistic回歸算法

優點:

1. 計算代價不高,易于了解和實作;

2. 适用于數值型和分類型資料。

缺點:

1. 容易欠拟合;

2. 分類精度可能不高。