天天看點

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

【大資料文摘-阿裡雲栖社群】成立啦

首次活動報名:21天快速搭建推薦系統

講師:阿裡雲算法專家,阿裡雲推薦引擎技術負責人 鄭重(盧梭)

時間:6月16日晚20:00

報名方式詳見文末

1、實驗流程

讓我們假設這樣一個略顯沉重的應用場景:泰坦尼克号沉船事件。通過分析泰坦尼克号沉船事件幸存者和喪生者的資料,機器學習是否能夠判斷擁有什麼樣的屬性的人有更大的機率獲救?

2、資料準備

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

原始資料

将資料導入maxcompute,

•     passengerid:使用者的id号

•     survived:乘客是否獲救,“1”表示獲救,“0”表示沒有獲救。目标隊列(target)

•     pclass:乘客的社會階層,“1”表示upper,“2”表示middle,“3”表示lower

•     sex:乘客的性别,“1”表示男,“0”表示女

•     age:乘客的年齡

•     sibsp:乘客在船上的配偶數量或兄弟姐妹數量

•     parch:乘客在船上的父母或子女數量

•     fare:乘客的船費

•     cabin:是否住在獨立的房間,“1”表示是,“0”為否

•     embarked:表示乘客上船的碼頭距離泰坦尼克出發碼頭的距離,數值越大表示距離越遠

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

實驗流程

1)   首先将資料集按照7:3進行拆分,一部分作為titanic訓練集,一部分作為預測集。

2)   将資料進行标準化處理,去除量綱對于資料造成的幹擾。

3)   訓練資料通過邏輯回歸lr算法生成模型。

4)   對預測集進行預測。

5)   通過roc曲線和混淆矩陣來對結果進行評估。

4、評估結果

混淆矩陣結果

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

混淆矩陣結果分析

說明:

1.    正确率:預測正确的正例個數占預測為正例的比例,即p=tp/(tp+fp); 

2.    召回率: 預測正确的正例個數占實際正例的比例,即r=tp/(tp+fn);

3.    f1名額:p和r的中權調和平均,即f1=2pr/(p+r)。當f1較高時說明實驗方法比較理想; 

roc曲線評估結果

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

roc曲線結果分析

1.    tpr=tp/(tp+fn); 

2.    fpr=fp/(fp+tn); 

3.    roc曲線:

①  y軸:tpr; x軸:fpr;

②  (0,1):frp=0,tpr=1。fn=0,fp=0,将所有樣本都正确分類; 

③  (1,0):即:fpr=1,tpr=0,預測結果相反,正變負,負變正; 

④  (0,0):frp=tpr=0,将所有樣本劃分為負樣本; 

⑤  (1,1):所有樣本劃分為正樣本;

⑥  roc曲線越接近左上角,該分類器越好; 

4.    y=x,随機猜測,一半正樣本,一半負樣本; 

5.    auc:roc曲線下面積,應該介于0.5~1之間。auc 越大,分類器越好; 

5、模型分析

邏輯回歸生成模型:

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

模型分析

根據logical regression的特性,model輸出的是每個特征的線性組合。3.199為常數項,不予考慮。其它系數絕對值越大說明對結果影響越大。通過這一結論得出age、sex和pclass對于結果影響最大。

 根據sigmoid函數得出負号系數的絕對值越大其結果的正例可能性越大。是以我們可以得出結論,age、pclass和sex的值越小,目标值越大。

 也就是有錢人家的女人和小孩有更大的獲救機率。

 通過真實資料比對也印證了我們的分析結果:

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

真實資料

背景回複“泰坦尼克”可獲得相關資料集

*關于阿裡雲機器學習平台*

阿裡雲機器學習平台是一套基于maxcompute(阿裡雲分布式計算引擎)的資料挖掘、模組化、預測的工具。它提供算法開發、分享、模型訓練、部署、監控等一站式算法服務,使用者可以通過可視化的操作界面來操作整個實驗流程,同時也支援pai指令,讓使用者通過指令行來操作實驗。

該平台沉澱了阿裡巴巴的機器學習算法體系和經驗,從資料的預處理、到機器學習算法、模型的評估和預測動能。

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

阿裡雲機器學習平台的架構圖

【大資料文摘-阿裡雲栖社群】成立啦!

感興趣的讀者可以按照如下方式加入【大資料文摘-阿裡雲栖社群】,社群将邀請阿裡算法專家線上分享幹貨、釋出最新講座訊息。

6月16日晚20:00,大資料文摘将邀請阿裡算法專家線上分享【如何用21天搭建推薦系統】。

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

報名方式如下:

(一)長按上圖二維碼,掃碼報名

(二)掃碼加入“大資料文摘-阿裡雲栖社群” (掃描以下任一二維碼即可,請勿重複掃碼)

報名1群

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

報名2群

分析泰坦尼克号沉船資料 機器學習告訴你誰獲救機率更大◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆3、搭建實驗流程◆ ◆ ◆◆ ◆ ◆

群定位:阿裡系雲計算、大資料、人工智能等技術讨論

群中會有專人指導大家完成注冊并提供如下群友福利:

(1)實戰技術教育訓練幹貨(線上教育訓練、教育訓練文章、pdf等)放送

(2)阿裡雲計算、大資料等産品意見、建議回報

(3)不定期專家講座答疑

(4)受邀成為社群專家,共同策劃技術選題

(5)各種福利早知道,比如雲主機優惠券、課程通知、新品試用等

(6)優先報名參加雲栖社群的線下活動,如雲栖大會等

原文釋出時間為:2016-06-14

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号

繼續閱讀