Machine Learning Basis

（部分内容参考自其它 blog，见下面引用）

1. 机器学习 Machine Learning

Gives the computers the ability to learnwithout being explicitly programmed.

2. 监督学习Supervise Learning

根据一组x人为给定对应的y，之后，当给新的一个X，程序能自行预估出对应的估算Y。又称有老师学习。而人为给定的x, y就是训练数据。这里的x是输入，y是输出，中i表示第i个training data.

一个例子是无人驾驶。司机开车，仪器拍摄路面并抽象出路径，然后学习路径(x)与方向盘转动程度(y)的关系，一段时间后，车辆就能在新的路面上(X)，程序自动控制方向盘转动(Y)驾驶。

Reference: Andrew Ng - Machine Learning Course

3. 训练数据、验证数据、测试数据

训练数据（Training Data）：用于模型构建，由已知推测未来

验证数据（Validation Data）：可选，用于辅助模型构建，可以重复使用。

测试数据（Test Data）：用于检测模型构建，此数据只在模型检验时使用，用于评估模型的准确率。绝对不允许用于模型构建过程，否则会导致过渡拟合。

4. 分类Classification

“这个东西被分为某类”。

理想情况下，一个 classifier会从训练集中进行“学习”，从而具备对未知数据进行分类的能力，提供训练数据的过程通常叫做 supervised learning (监督学习)

常用算法包括：决策树，朴素贝叶斯(native Bayesian classifier)、基于支持向量机(SVM)的分类器， k-最近邻法(k-nearest neighbor，kNN)等

5. 聚类Clustering

“某堆东西聚成一类”。

聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东西聚到一起，因此，一个聚类算法通常只需要知道如何计算相似度就可以开始工作了，因此 clustering 通常并不需要使用训练数据进行学习，unsupervisedlearning (无监督学习).

常用算法包括：K均值(K-means clustering)

6. 决策树

一种依托于策略抉择而建立起来的树，可用于分类。节点：对象；路径：属性；叶结点：对象值。e.g.找男朋友标准：

Machine Learning Basis

5. ID3

ID3（Iterative Dichotomiser 3 迭代二叉树3代），自顶向下贪婪遍历；ID3无回溯，局部最优，而非全局最优。

熵（entropy）：刻画了任意样例集的纯度（purity），反映不确定性，值越小不确定性越低。公式：

Machine Learning Basis

p+代表正样例，如打羽毛球，p-则代表反样例，不去打球。E.g. 9个正例和5个反例的熵为：

Entropy（[9+，5-]）=-（9/14）log2（9/14）-（5/14）log2（5/14）=0.940

正例反例各占一半时，熵为最大值 1 ，即不确定性最大 - 100% 。

Machine Learning Basis

扩展公式：

Machine Learning Basis

信息增益(Information Gain)，度量标准是熵，值越大越好。样本按照某属性划分时造成熵减少的期望。属性A相对样例集合S的信息增益Gain(S,A)：

Machine Learning Basis

e.g.

假定 S 是一套有关天气的训练样例，描述它的属性包括可能是具有 Weak 和 Strong 两个值的 Wind 。假定 S 包含 14 个样例， [9+ ， 5-] （ 9 个打羽毛球， 5 个不去打）。正例中的 6 个和反例中的 2 个有 Wind =Weak ，其他的有 Wind=Strong 。

Machine Learning Basis

在上图中，计算了两个不同属性：湿度(humidity)和风力(wind)的信息增益，最终humidity这种分类的信息增益0.151>wind增益的0.048。说白了，就是在星期六上午是否适合打网球的问题诀策中，采取humidity较wind作为分类属性更佳，决策树由此而来。

7. C4.5

ID3算法的改进。ID3使用的是熵的变化值（信息增益），C4.5使用信息增益率。

C4.5克服了ID3 用信息增益选择属性时偏向选择取值多的属性的不足。 E.g. 一个起点是 10m /s 的人、其 10 s 后为 20m /s ；另一个人起速是 1m /s 、其 1s 后为 2m /s 。如果紧紧算差值那么两个差距就很大了，如果使用速度增加率 ( 加速度，即都是为 1m /s^2) 来衡量， 2 个人就是一样的加速度。

Machine Learning Basis

其中，分裂信息度量被定义为(分裂信息用来衡量属性分裂数据的广度和均匀)：

Machine Learning Basis

优点：1）准确率较高

缺点： 1 ）低效； 2 ）只适用于驻留内存的数据集，大数据无法运行

参考自：http://blog.csdn.net/v_july_v/article/details/7577684

8. k-means

属cluster analysis聚类分析算法。

Machine Learning Basis

1. 随机在图中取K（这里K=2）个种子点。

2. 然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（上图中，我们可以看到A，B属于上面的种子点，C，D，E属于下面中部的种子点）

3. 接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）

4. 然后重复第2）和第3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了A，B，C，下面的种子点聚合了D，E）。

求点群中心的算法有多种，如Euclidean Distance公式（欧氏距离）

Machine Learning Basis

优点：1）快速并适合大数据

缺点： 1 ） K 是事先给定的； 2 ）不同的随机种子点会有得到完全不同的结果

Machine Learning Basis

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告