天天看點

吳恩達《機器學習》課程總結(13)聚類

13.1無監督學習:簡介

将沒有标簽的樣本分成不同的集合(簇),這種算法叫做聚類。常用的領域有市場分割、社交網絡分析、計算機叢集管理、了解星系等。

13.2K-均值算法

(1)K-均值是最普及的聚類算法,是一種疊代算法,假設需要将資料聚類成n個組,這時候首先随機選擇K個點,稱為聚類中心。

将每個樣本歸屬到最近的聚類中心,然後重新計算每個類的中心變成新的聚類中心,重複以上步驟,直到聚類中心不變。

吳恩達《機器學習》課程總結(13)聚類
吳恩達《機器學習》課程總結(13)聚類

僞代碼如下:

吳恩達《機器學習》課程總結(13)聚類

13.3優化目标

k-均值的最小化問題,就是每個樣本點到對應聚類中心的距離之和:

吳恩達《機器學習》課程總結(13)聚類

與其他算法不同的是,k-均值每一次疊代都會是代價函數變小。

13.4随機初始化

(1)K應該小于樣本數m;

(2)從樣本中随機選取K個執行個體作為初始聚類中心。

K-均值可能會出現局部最小的情況,如下所示:

吳恩達《機器學習》課程總結(13)聚類

解決方案:多次運作該算法,最後在比較K-均值代價函數最小的結果,這種方法适用于K取較小的時候(2-10),K太大沒有明顯效果。

13.5選擇聚類數

繪制聚類數與代價函數的圖,然後選取出現斜率突然變小的地方的值(“肘部法則”)。

吳恩達《機器學習》課程總結(13)聚類
吳恩達《機器學習》課程總結(13)聚類

繼續閱讀