天天看点

sas EM 决策树

From http://bbs.pinggu.org/thread-448896-1-1.html

1. 将Tree 节点添加到流程图工作区

2. 连接Transform Variables 节点和Tree节点

3. 打开Tree 节点。对于二元目标变量,节点使用卡方检验,默认对于二元目标变量分枝准则的显著性水平为0.200。

简单说来,可以使用默认Basic项的设置来拟合模型

4. 选择Advanced 项。由于节点认识到一个启动的损失矩阵已经做过定义,它自动的是指模型评估度量为Average Loss。最佳树将在验证数据集中基于最小化期望损失被建立起来。

5. 使用应用工具箱中的保存图标保存模型。分别在条目中键入模型名称和描述并点击OK.默认,保存的模型名是"Untitled."

6. 使用应用工具箱中的RUN图示训练节点。

7. 当节点结束训练后,点击Message 窗口中的YES观察结果

结果浏览器中的所有项显示如下:

左上角的表总结了全部分类的过程。下面是另一个列出了随着树复杂性的增加在训练和验证集上的期望损失值表。右下角的图以图形化的方式表示了相同的信息。

只有2个叶子节点的树提供了验证数据集上最小的期望损失。验证数据集上的平均期望损失大约是-12分(12分的收益)。

环形树提供了一个对树复杂性,分枝平衡,判别能力的快速的浏览。环形的中心对应于树的根节点——离中心越远,树就越深。环上的一个分裂对应于树上的分枝。每个环上弧的长度对应于节点的样本大小。较深的颜色表示节点纯度高(这些节点有着最小期望损失值)。评估颜色窗口包含了对应于环形树上的期望损失值的组颜色。

8. 点击View 菜单选择Tree来观察更传统意义上的树图

树的流程图包含了以下的项:

o  根节点 – 居于树中最高的节点,包含了所有的样本。

o  内部节点—非末端节点(也包含了根节点),包含了分枝规则;

o  叶子节点 -- 末端节点,包含了对观测样本的最终分类。

可以使用下滑条显示额外的节点。期望损失值被用来递归的划分资料成相似的组。方法是递归的因为每个子组都是从先前分枝中对子分组分割而来的。

在每个节点上的数值标签表示出了树节点找到显著性分枝的点上。位于每个分枝中心的字符卷标是变量名。

当使用损失评估准则建立树时,当使用损失评估准则来建立树时,每行的节点包含了以下统计量:

o  第一行列出了在训练和验证数据集中的好客户的百分比。

o  第二行列出了在训练和验证数据集中的坏客户的百分比

o  第三行列出了在训练和验证数据集中的好客户的人数.

o  第四行列出了在训练和验证数据集中的坏客户的人数

o  第五行列出了在训练和验证数据集中的客户总数。

o  第六行列出了供选择的决策(接受或拒绝).

o  第七行列出了在训练和验证数据集中对于接收决策的期望损失。

o  第八行列出了在训练和验证数据集中对于拒绝决策的期望损失。

9. 关闭结果浏览器并关闭Tree 节点

继续阅读