【大資料文摘-阿裡雲栖社群】成立啦
首次活動報名:21天快速搭建推薦系統
講師:阿裡雲算法專家,阿裡雲推薦引擎技術負責人 鄭重(盧梭)
時間:6月16日晚20:00
報名方式詳見文末
1、實驗流程
讓我們假設這樣一個略顯沉重的應用場景:泰坦尼克号沉船事件。通過分析泰坦尼克号沉船事件幸存者和喪生者的資料,機器學習是否能夠判斷擁有什麼樣的屬性的人有更大的機率獲救?
2、資料準備
原始資料
将資料導入maxcompute,
• passengerid:使用者的id号
• survived:乘客是否獲救,“1”表示獲救,“0”表示沒有獲救。目标隊列(target)
• pclass:乘客的社會階層,“1”表示upper,“2”表示middle,“3”表示lower
• sex:乘客的性别,“1”表示男,“0”表示女
• age:乘客的年齡
• sibsp:乘客在船上的配偶數量或兄弟姐妹數量
• parch:乘客在船上的父母或子女數量
• fare:乘客的船費
• cabin:是否住在獨立的房間,“1”表示是,“0”為否
• embarked:表示乘客上船的碼頭距離泰坦尼克出發碼頭的距離,數值越大表示距離越遠
實驗流程
1) 首先将資料集按照7:3進行拆分,一部分作為titanic訓練集,一部分作為預測集。
2) 将資料進行标準化處理,去除量綱對于資料造成的幹擾。
3) 訓練資料通過邏輯回歸lr算法生成模型。
4) 對預測集進行預測。
5) 通過roc曲線和混淆矩陣來對結果進行評估。
4、評估結果
混淆矩陣結果
混淆矩陣結果分析
說明:
1. 正确率:預測正确的正例個數占預測為正例的比例,即p=tp/(tp+fp);
2. 召回率: 預測正确的正例個數占實際正例的比例,即r=tp/(tp+fn);
3. f1名額:p和r的中權調和平均,即f1=2pr/(p+r)。當f1較高時說明實驗方法比較理想;
roc曲線評估結果
roc曲線結果分析
1. tpr=tp/(tp+fn);
2. fpr=fp/(fp+tn);
3. roc曲線:
① y軸:tpr; x軸:fpr;
② (0,1):frp=0,tpr=1。fn=0,fp=0,将所有樣本都正确分類;
③ (1,0):即:fpr=1,tpr=0,預測結果相反,正變負,負變正;
④ (0,0):frp=tpr=0,将所有樣本劃分為負樣本;
⑤ (1,1):所有樣本劃分為正樣本;
⑥ roc曲線越接近左上角,該分類器越好;
4. y=x,随機猜測,一半正樣本,一半負樣本;
5. auc:roc曲線下面積,應該介于0.5~1之間。auc 越大,分類器越好;
5、模型分析
邏輯回歸生成模型:
模型分析
根據logical regression的特性,model輸出的是每個特征的線性組合。3.199為常數項,不予考慮。其它系數絕對值越大說明對結果影響越大。通過這一結論得出age、sex和pclass對于結果影響最大。
根據sigmoid函數得出負号系數的絕對值越大其結果的正例可能性越大。是以我們可以得出結論,age、pclass和sex的值越小,目标值越大。
也就是有錢人家的女人和小孩有更大的獲救機率。
通過真實資料比對也印證了我們的分析結果:
真實資料
背景回複“泰坦尼克”可獲得相關資料集
*關于阿裡雲機器學習平台*
阿裡雲機器學習平台是一套基于maxcompute(阿裡雲分布式計算引擎)的資料挖掘、模組化、預測的工具。它提供算法開發、分享、模型訓練、部署、監控等一站式算法服務,使用者可以通過可視化的操作界面來操作整個實驗流程,同時也支援pai指令,讓使用者通過指令行來操作實驗。
該平台沉澱了阿裡巴巴的機器學習算法體系和經驗,從資料的預處理、到機器學習算法、模型的評估和預測動能。
阿裡雲機器學習平台的架構圖
【大資料文摘-阿裡雲栖社群】成立啦!
感興趣的讀者可以按照如下方式加入【大資料文摘-阿裡雲栖社群】,社群将邀請阿裡算法專家線上分享幹貨、釋出最新講座訊息。
6月16日晚20:00,大資料文摘将邀請阿裡算法專家線上分享【如何用21天搭建推薦系統】。
報名方式如下:
(一)長按上圖二維碼,掃碼報名
(二)掃碼加入“大資料文摘-阿裡雲栖社群” (掃描以下任一二維碼即可,請勿重複掃碼)
報名1群
報名2群
群定位:阿裡系雲計算、大資料、人工智能等技術讨論
群中會有專人指導大家完成注冊并提供如下群友福利:
(1)實戰技術教育訓練幹貨(線上教育訓練、教育訓練文章、pdf等)放送
(2)阿裡雲計算、大資料等産品意見、建議回報
(3)不定期專家講座答疑
(4)受邀成為社群專家,共同策劃技術選題
(5)各種福利早知道,比如雲主機優惠券、課程通知、新品試用等
(6)優先報名參加雲栖社群的線下活動,如雲栖大會等
原文釋出時間為:2016-06-14
本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号