【机器学习算法-python实现】Adaboost的实现(1)-单层决策树(decision stump)1.背景2.构建决策树3.结果4.代码下载

2021-11-10 17:15:07

上一节学习支持向量机，感觉公式都太难理解了，弄得我有点头大。不过这一章的Adaboost线比较起来就容易得多。Adaboost是用元算法的思想进行分类的。什么事元算法的思想呢？就是根据数据集的不同的特征在决定结果时所占的比重来划分数据集。就是要对每个特征值都构建决策树，并且赋予他们不同的权值，最后集合起来比较。

比如说我们可以通过是否有胡子和身高的高度这两个特征来来决定一个人的性别，很明显是否有胡子可能在判定性别方面比身高更准确，所以在判定的时候我们就赋予这个特征更大的权重，比如说我们把权重设成0.8：0.2。这样就比0.5：0.5的权重来的更准确些。

接着我们来构建决策树。我们的决策树要实现主要两个功能，一个是找出对结果影响最大的特征值。另外一个功能是找到这个特征值得阈值。阈值就是，比方说阈值是d，当特征值大于d结果为1，当特征值小于d结果为0。

首先看下数据集，是一个两个特征值的矩阵。

接着是树的分类函数。这个函数在下面的循环里要用到，作用很简单，就是比对每一列的特征值和目标函数，返回比对的结果。四个参数分别是（输入矩阵，第几列，阈值，lt或gt）

最后是构建二叉树函数，通过循环比较得到最佳特征值和它的阈值。D是初始矩阵的权重。

当我们假设初始权重相同（5行数据也就是都是0.2），得到结果

{'dim': 0, 'ineq': 'lt', 'thresh': 1.3}——第一个特征值权重最大，阈值是1.3

[[ 0.2]]——错误率0.2，也就是五个错一个

[[-1.]————判断结果，第一个数据错误

[ 1.]

[-1.]

[ 1.]]

<a target="_blank" href="https://github.com/X-Brain/MachineLearning">下载地址（Decision Stump）</a>

参考文献：

[1] machine learning in action，Peter Harrington

【机器学习算法-python实现】Adaboost的实现(1)-单层决策树(decision stump)1.背景2.构建决策树3.结果4.代码下载

继续阅读

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

笔试面试题目：滑动窗口(二)

27. Remove Element(列表)题目代码

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

hdu7108哈希