天天看点

机器学习无监督学习技术分享

作者:烟酒茶xxx

1.在机器学习中,聚类是将相似的实何组合在 起的无监督任务。机于你手头的任务:例如,在某些情况下,两个附近的实例将被认为基相信的月些情况下,只要它们属下间, 南度组,则相似的实例可能相蹈北说类算法包括K Means, DBSCAN、聚集聚类,BIRCHI、均值平移、亲和度传播和光谱聚类。

机器学习无监督学习技术分享

2. 聚类算法的主要应用包括数钢分析,客户分组、,推荐系统,权索引擎、图像分制事监督学习,降维、异常检测和新颖性检测。

3. 肘部法则是,种在使用K-Means时选择集群数的简单技术:将惯量(从每个实例到其最近的中心点的均方距离)作为集群数量的函数绘制出来,并找到曲线中惯量停止快速下降的点(“肘”)。另种方法是将轮廓分 数作为集群数量的丽数给制出来,通常最佳集群数是在个高峰的附近。轮廓分数是所有实例上的平均轮廓系数。对于位于集群内且与其他集群相距甚远的实例,该系数为+,对于与另一集群非常接近的实例,该系数为-1。你也可以绘制轮廓图并进行更细致的分析。

4. 标记数据集

机器学习无监督学习技术分享

既昂贵又费时。因此,通常有很多未标记的实例,很少有标记的实例,标签传播是一种技术,该技术包括将部分(或企部)标签从已标记的实例复制到相似的未标记实例,这可以大大增加标记实例的数量,从而使监督算法达到更好的性能(这是半监督学习的一种形式)。 一种方法是在所有实例上使用诸如K-Means 之类的聚类算法,然后为每个集群找到最常见的标签或最具代表性的实例(即最接近中心点的实例)的标签并将其传播到同一集群中未标记的实例。

5. K均值和BIRCH可以很好地扩展到大数据集。DBSCAN和Mean- Shift 寻找高密度区域。

6.当你有大量 标记的实例而做标记非常昂贵时,主动学习就非常有用。在这种情况

下(非常常见),与其随机洗书实例来做标记,不如进行主动学习,这通常是更可取的种方法,人类专家可以与算法进行交五,并在算法有需要时为特定实例提供标签。常见的方法是不确定性采样(见9.1.5 节的“主动学习)。

7.许多人把术语异常检测和新颖性检测互换,但是它们并不完全相同。在异常检测中,算法对可能包含外常值的数据集进行训练,目标通格是识别这些异常值(在训练集中)以及新实例中的异常值。在新颖性检测中,该算法在假定为“干净”的数据集上进行训练,共目的是严格在新实例中检测新颖性。某些算法最适合异常检测(例如隔离森林),而其他算法更适合新颗性检测(例如单类SVM).

机器学习无监督学习技术分享

8. 高斯混合模型(GMM)见一种概率模型,它假定实例是由参数未知的多个高斯分布的混合生成的。换句话说,我们假设数据可以分为有限数量的集群,每个集群具有椭圆的形状(但是集群可能具有不同的椭圆形状、大小、方向和密度),而我们不知道每个实例属干哪个族。该模型可用于密度估计、聚类和异常检测。

9,使用高斯混合模型时,找到正确数量的集群的一种方法是将贝叶斯信息准则(BIC)成赤池信息准则(AIC) 作为集群数量的函数绘制出来,然后选择使BIC或AIC最小化的集群数量。另种技术是使用贝叶斯高斯混合模型,该模型可以自动选择集群数。

继续阅读