机器学习无监督学习技术分享

1.在机器学习中，聚类是将相似的实何组合在起的无监督任务。机于你手头的任务:例如，在某些情况下，两个附近的实例将被认为基相信的月些情况下，只要它们属下间，南度组，则相似的实例可能相蹈北说类算法包括K Means, DBSCAN、聚集聚类，BIRCHI、均值平移、亲和度传播和光谱聚类。

2. 聚类算法的主要应用包括数钢分析，客户分组、，推荐系统，权索引擎、图像分制事监督学习，降维、异常检测和新颖性检测。

3. 肘部法则是，种在使用K-Means时选择集群数的简单技术:将惯量(从每个实例到其最近的中心点的均方距离)作为集群数量的函数绘制出来，并找到曲线中惯量停止快速下降的点(“肘”)。另种方法是将轮廓分数作为集群数量的丽数给制出来，通常最佳集群数是在个高峰的附近。轮廓分数是所有实例上的平均轮廓系数。对于位于集群内且与其他集群相距甚远的实例，该系数为+，对于与另一集群非常接近的实例，该系数为-1。你也可以绘制轮廓图并进行更细致的分析。

4. 标记数据集

既昂贵又费时。因此，通常有很多未标记的实例，很少有标记的实例，标签传播是一种技术，该技术包括将部分(或企部)标签从已标记的实例复制到相似的未标记实例，这可以大大增加标记实例的数量，从而使监督算法达到更好的性能(这是半监督学习的一种形式)。一种方法是在所有实例上使用诸如K-Means 之类的聚类算法，然后为每个集群找到最常见的标签或最具代表性的实例(即最接近中心点的实例)的标签并将其传播到同一集群中未标记的实例。

5. K均值和BIRCH可以很好地扩展到大数据集。DBSCAN和Mean- Shift 寻找高密度区域。

6.当你有大量标记的实例而做标记非常昂贵时，主动学习就非常有用。在这种情况

下(非常常见)，与其随机洗书实例来做标记，不如进行主动学习，这通常是更可取的种方法，人类专家可以与算法进行交五，并在算法有需要时为特定实例提供标签。常见的方法是不确定性采样(见9.1.5 节的“主动学习)。

7.许多人把术语异常检测和新颖性检测互换，但是它们并不完全相同。在异常检测中，算法对可能包含外常值的数据集进行训练，目标通格是识别这些异常值(在训练集中)以及新实例中的异常值。在新颖性检测中，该算法在假定为“干净”的数据集上进行训练，共目的是严格在新实例中检测新颖性。某些算法最适合异常检测(例如隔离森林)，而其他算法更适合新颗性检测(例如单类SVM).

8. 高斯混合模型(GMM)见一种概率模型，它假定实例是由参数未知的多个高斯分布的混合生成的。换句话说，我们假设数据可以分为有限数量的集群，每个集群具有椭圆的形状(但是集群可能具有不同的椭圆形状、大小、方向和密度)，而我们不知道每个实例属干哪个族。该模型可用于密度估计、聚类和异常检测。

9,使用高斯混合模型时，找到正确数量的集群的一种方法是将贝叶斯信息准则(BIC)成赤池信息准则(AIC) 作为集群数量的函数绘制出来，然后选择使BIC或AIC最小化的集群数量。另种技术是使用贝叶斯高斯混合模型，该模型可以自动选择集群数。

机器学习无监督学习技术分享

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

【分类算法】什么是分类算法定义分类与聚类分类过程方法

分类算法的评价指标

K-近邻算法以及图像分类应用

weka之NB算法

使用weka的select attribute

weka中分类器算法

在weka中集成自己的算法

【多变量线性回归】学习记录序思路实现终

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

【趋高机器视觉】机器视觉技术原理解析及解决方案

吴恩达 coursera ML 第七课总结+作业答案前言目录正文模型表示作业答案

XGBoost Plotting API以及GBDT组合特征实践 XGBoost Plotting API以及GBDT组合特征实践

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告