天天看點

201116西瓜書機器學習系列---9、聚類

201116西瓜書機器學習系列---9、聚類

一、總結

一句話總結:

1、聚類理論基礎?

201116西瓜書機器學習系列---9、聚類

2、聚類方法?

201116西瓜書機器學習系列---9、聚類

3、聚類性能度量?

聚類的性能度量主要分為【外部名額】和【内部名額】
聚類的基本想是:【簇内相似度高,簇外相似度低】
201116西瓜書機器學習系列---9、聚類

4、聚類距離計算?

聚類距離計算分為 【有序屬性、無序屬性、混合屬性(有序和無序混合)】
201116西瓜書機器學習系列---9、聚類

5、k均值聚類?

a、Assign:【計算每個點到中心點的距離】,根據距離配置設定類别
b、Move:根據a步驟中配置設定的類别,【重新計算中心點】
k均值聚類這個過程和EM算法非常像,【k均值聚類就是EM算法的一個執行個體】
201116西瓜書機器學習系列---9、聚類

6、混合高斯分布?

按照一定的規則【将高斯分布混合起來】
201116西瓜書機器學習系列---9、聚類
201116西瓜書機器學習系列---9、聚類

7、高斯混合聚類?

E步:根據目前參數【計算每個樣本屬于每個高斯函數的後驗機率】
M步:【更新模型參數】
201116西瓜書機器學習系列---9、聚類

8、Kmeans使用中的問題?

1)【對異常值十分敏感】
異常值十分敏感處理方法:【删除】:異常值不是很多的情況下;【重指派】:排序or自定義;【抽樣】:抽樣大小
201116西瓜書機器學習系列---9、聚類
201116西瓜書機器學習系列---9、聚類

繼續閱讀