13.1無監督學習:簡介
将沒有标簽的樣本分成不同的集合(簇),這種算法叫做聚類。常用的領域有市場分割、社交網絡分析、計算機叢集管理、了解星系等。
13.2K-均值算法
(1)K-均值是最普及的聚類算法,是一種疊代算法,假設需要将資料聚類成n個組,這時候首先随機選擇K個點,稱為聚類中心。
将每個樣本歸屬到最近的聚類中心,然後重新計算每個類的中心變成新的聚類中心,重複以上步驟,直到聚類中心不變。

僞代碼如下:
13.3優化目标
k-均值的最小化問題,就是每個樣本點到對應聚類中心的距離之和:
與其他算法不同的是,k-均值每一次疊代都會是代價函數變小。
13.4随機初始化
(1)K應該小于樣本數m;
(2)從樣本中随機選取K個執行個體作為初始聚類中心。
K-均值可能會出現局部最小的情況,如下所示:
解決方案:多次運作該算法,最後在比較K-均值代價函數最小的結果,這種方法适用于K取較小的時候(2-10),K太大沒有明顯效果。
13.5選擇聚類數
繪制聚類數與代價函數的圖,然後選取出現斜率突然變小的地方的值(“肘部法則”)。