項目背景
RMS泰坦尼克号的沉沒是曆史上最臭名昭着的沉船之一。1912年4月15日,在她的處女航中,泰坦尼克号在與冰山相撞後沉沒,在2224名乘客和機組人員中造成1502人死亡。這場聳人聽聞的悲劇震驚了國際社會,并導緻了更好的船舶安全規定。
造成海難失事的原因之一是乘客和機組人員沒有足夠的救生艇。盡管幸存下沉有一些運氣因素,但有些人比其他人更容易生存,比如女人,孩子和上流社會。
在這個挑戰中,我們要求您完成對哪些人可能存活的分析。特别是,我們要求您運用機器學習工具來預測哪些乘客幸免于悲劇。
操作步驟
1、資料讀取
2、分析資料
3、缺失資料處理
4、特征工程
5、拆分資料
5、 建立模型
6、 預測
7、評估模型
資料讀取
先将可能需要使用的包導入
讀取資料
head()和.describe().info()函數連檢視資料
缺失值查詢
對缺失值填充均值
特征分析與處理
采用seaborn繪圖函數庫作可視化分析
上圖變量均可判斷與生存率相關,'PassengerId','Name'和'Ticket'目前看不出有什麼特點,暫時不考慮他們
資料标準化,分割資料集、訓練模型、預測、評估模型、畫auc圖
以上用的是決策樹算法,下面是随機森林算法、和邏輯回歸算法
邏輯回歸算法
總結:此次事件中,并不完全符合物競天擇,适者生存的法則,比如,女士的存活率比男士的高,年紀大的都年輕的生存率高,但是有錢的坐一等艙的、買高票價的,存活率比二等、低票價的存活率高,說明人與人之間還不是很平等的。當然此次算法中丢棄了一些特征變量可能會對模型有影響,此文章僅表達資料分析的一些方法,如有不對之處,還請多多指教~
另附各類算法優缺點:
決策樹
優點
1. 計算複雜度不高,易于了解和解釋,可以了解決策樹所表達的意義;
2. 資料預處理階段比較簡單,且可以處理缺失資料;
3. 能夠同時處理資料型和分類型屬性,且可對有許多屬性的資料集構造決策樹;
缺點:
1. 對于那些各類别樣本數目不一緻的資料,資訊增益的結果偏向于那些具有更多數值的屬性;
2. 對噪聲資料較為敏感;
3. 容易出現過拟合問題;
4. 忽略了資料集中屬性之間的相關性;
5.處理缺失資料時的困難
随機森林
優點
1、 在目前的很多資料集上,相對其他算法有着很大的優勢,表現良好
2、它能夠處理很高次元(feature很多)的資料,并且不用做特征選擇
3、在訓練完後,它能夠給出哪些feature比較重要
4、在建立随機森林的時候,對generlization error使用的是無偏估計,模型泛化能力強
缺點:
1、随機森林已經被證明在某些噪音較大的分類或回歸問題上會過拟
2、對于有不同取值的屬性的資料,取值劃分較多的屬性會對随機森林産生更大的影響,是以随機森林在這種資料上産出的屬性權值是不可信的。
Logistic回歸算法
優點:
1. 計算代價不高,易于了解和實作;
2. 适用于數值型和分類型資料。
缺點:
1. 容易欠拟合;
2. 分類精度可能不高。