天天看點

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

本節我們主要介紹如何運用spss統計軟體進行決策樹分析,在spss statistics 中,隻能選擇ID3,CART及chaid 決策樹,而在spss另一款專門用于機器學習模組化的軟體 spss modeler 中,我們可以建立C5.0決策樹(C5.0算法的分類規則同C4.5,隻是在執行效率和記憶體使用上有所改進,适用于大資料集)。

我們引用名為 DRUG1n 的資料檔案,這是關于身患同一疾病的一組患者的資料。在治療過程中,每位患者均對五種藥物中的一種有明顯反應。本案例是通過資料挖掘找出适用于今後患有此疾病的患者的藥物。資料樣本記錄總共200條,拟按照訓練集與測試集比例7:3劃分,則約140個樣本用于模組化,70個樣本用于測試模型的有消息。(為了防止過度拟合,在有監督機器學習中通常會對樣本進行拆分,一般為7:3或4:3:3,在此我們使用7:3模式,實際資料分割時按随機種子的不同會有細微調整)

本次教程使用軟體版本為 IBM SPSS Modeler18.0,鑒于平時使用spss modeler的同學相對較少,本篇将是多圖小白教程,具體操作步驟如下:

一、資料導入

建立空白流,選擇下方 “收藏夾”或“源”頁籤裡面的“變量檔案”節點,滑鼠單擊按住拖到空白處,然後,輕按兩下新添加的節點以打開其對話框。

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖一 建立節點

單擊緊挨“檔案”框右邊以省略号“...”标記的按鈕,浏覽到您系統中的 IBM® SPSS® Modeler 安裝目錄。打開 Demos 目錄,然後選擇名為 DRUG1n 的檔案。

確定選中了從檔案讀取字段名稱,注意已加載此對話框中的字段和值。

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖二 導入檔案

單擊資料頁籤,覆寫和更改某個字段的存儲。注意,存儲不同于測量,即,資料字段的測量級别(或用途類型)。

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖三 導入檔案設定

二、資料稽核

先單擊變量檔案,再輕按兩下下方輸出頁籤中的“資料稽核”,畫布上會出現與變量檔案連接配接的“資料稽核”節點

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖四 增加資料稽核節點

輕按兩下資料稽核節點,彈出視窗中點選“運作”

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖五 資料稽核

結果視窗包括對對各變量的描述性統計,以及對缺失值和離群點的稽核

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖六 描述性統計

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖七 離群點稽核

三、資料分區

本次資料無離群點,下一步便是分割訓練集和測試集

先點選變量檔案節點,再在下方“字段選項”卡輕按兩下分區,生成“分區”節點

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖八 增加資料分區節點

輕按兩下畫布中的分區節點,在彈出的視窗中設定訓練集和測試集的比例,設定完成後點選“确定”完成資料分割

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖九 資料分區

四、資料規整

輕按兩下下方“字段選項”頁籤中的“類型”,生成類型節點。

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十 添加類型節點

輕按兩下類型節點,彈出的視窗中“類型” 頁籤可幫助了解資料中的更多字段類型。還可以選擇 讀取值 來檢視各個字段的實際值,而設定“角色”可以區分因變量與自變量,此處我們将将因變量的角色設定為“目标” 。

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十一 類型設定

五、決策樹模組化

終于到了正式模組化階段,輕按兩下下方模組化頁籤中的C5.0,生成C5.0決策樹模組化節點

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十二 選擇模組化節點

輕按兩下C5.0模組化節點在彈出視窗裡可設定參數,如果要設定剪枝,選擇專家模式,再進行相應參數設定,我們這裡使用預設參數,參數完成後,點選下方“運作”

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十三 模組化參數設定及執行

執行模組化後,會生成具體的模型規則節點

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十四 規則節點

輕按兩下模型規則節點,出現的視窗中模型頁籤裡是具體的規則和預測變量的重要性排序圖

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十五 規則展示

規則一開始隻顯示第一層規則,單擊規則前面的小+号可以檢視具體細分規則

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十六 規則明細

點選“檢視器”頁籤則可以看到具體的決策樹圖形

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十七 決策流程樹圖

六、模型評估

再輕按兩下下方“輸出”頁籤中的“分析”,生成分析節點

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十八 分析節點

輕按兩下分析節點,在彈出視窗中自行選擇分析名額,然後點選下方“運作”

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖十九 分析參數

結果視窗裡便是模型準确性的評估

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖二十 評估結果視圖

七、結果分析

表1、案例處理彙總

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

表一給出了資料集的劃分情況,以及不同資料集中的預測準确率,可以看出無論訓練集還是測試集預測準确率均在90%以上。

表2、預測變量重要性

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

通過表2可看出重要性最強的特征為K,其次是BP和Ag,Cholesterol重要性最差。

spss預測變量重要性不可用_C4.5/5.0的SPSS操作

圖二十 決策樹具體分類樹圖

在圖20中可看出具體決策流程和分類規則,重要性越強的特征處于越上遊的分支節點。

在SPSSSS學堂首頁,回複20190605即可獲得原始資料哦~