天天看點

sas EM 決策樹

From http://bbs.pinggu.org/thread-448896-1-1.html

1. 将Tree 節點添加到流程圖工作區

2. 連接配接Transform Variables 節點和Tree節點

3. 打開Tree 節點。對于二進制目标變量,節點使用卡方檢驗,預設對于二進制目标變量分枝準則的顯著性水準為0.200。

簡單說來,可以使用預設Basic項的設定來拟合模型

4. 選擇Advanced 項。由于節點認識到一個啟動的損失矩陣已經做過定義,它自動的是指模型評估度量為Average Loss。最佳樹将在驗證資料集中基于最小化期望損失被建立起來。

5. 使用應用工具箱中的儲存圖示儲存模型。分别在條目中鍵入模型名稱和描述并點選OK.預設,儲存的模型名是"Untitled."

6. 使用應用工具箱中的RUN圖示訓練節點。

7. 當節點結束訓練後,點選Message 視窗中的YES觀察結果

結果浏覽器中的所有項顯示如下:

左上角的表總結了全部分類的過程。下面是另一個列出了随着樹複雜性的增加在訓練和驗證集上的期望損失值表。右下角的圖以圖形化的方式表示了相同的資訊。

隻有2個葉子節點的樹提供了驗證資料集上最小的期望損失。驗證資料集上的平均期望損失大約是-12分(12分的收益)。

環形樹提供了一個對樹複雜性,分枝平衡,判别能力的快速的浏覽。環形的中心對應于樹的根節點——離中心越遠,樹就越深。環上的一個分裂對應于樹上的分枝。每個環上弧的長度對應于節點的樣本大小。較深的顔色表示節點純度高(這些節點有着最小期望損失值)。評估顔色視窗包含了對應于環形樹上的期望損失值的組顔色。

8. 點選View 菜單選擇Tree來觀察更傳統意義上的樹圖

樹的流程圖包含了以下的項:

o  根節點 – 居于樹中最高的節點,包含了所有的樣本。

o  内部節點—非末端節點(也包含了根節點),包含了分枝規則;

o  葉子節點 -- 末端節點,包含了對觀測樣本的最終分類。

可以使用下滑條顯示額外的節點。期望損失值被用來遞歸的劃分資料成相似的組。方法是遞歸的因為每個子組都是從先前分枝中對子分組分割而來的。

在每個節點上的數值标簽表示出了樹節點找到顯著性分枝的點上。位于每個分枝中心的字元卷标是變量名。

當使用損失評估準則建立樹時,當使用損失評估準則來建立樹時,每行的節點包含了以下統計量:

o  第一行列出了在訓練和驗證資料集中的好客戶的百分比。

o  第二行列出了在訓練和驗證資料集中的壞客戶的百分比

o  第三行列出了在訓練和驗證資料集中的好客戶的人數.

o  第四行列出了在訓練和驗證資料集中的壞客戶的人數

o  第五行列出了在訓練和驗證資料集中的客戶總數。

o  第六行列出了供選擇的決策(接受或拒絕).

o  第七行列出了在訓練和驗證資料集中對于接收決策的期望損失。

o  第八行列出了在訓練和驗證資料集中對于拒絕決策的期望損失。

9. 關閉結果浏覽器并關閉Tree 節點

繼續閱讀