天天看點

基于matlab的K-means聚類算法

K-means聚類算法的一般步驟:

  1. 初始化。輸入基因表達矩陣作為對象集X,輸入指定聚類類數N,并在X中随機選取N個對象作為初始聚類中心。設定疊代中止條件,比如最大循環次數或者聚類中心收斂誤差容限。
  2. 進行疊代。根據相似度準則将資料對象配置設定到最接近的聚類中心,進而形成一類。初始化隸屬度矩陣。
  3. 更新聚類中心。然後以每一類的平均向量作為新的聚類中心,重新配置設定資料對象。
  4. 反複執行第二步和第三步直至滿足中止條件。

下面來看看K-means是如何工作的:

基于matlab的K-means聚類算法

圖中圓形為聚類中心,方塊為待聚類資料,步驟如下:

 (a)選取聚類中心,可以任意選取,也可以通過直方圖進行選取。我們選擇三個聚類中心,并将資料樣本聚到離它最近的中心;

 (b)資料中心移動到它所在類别的中心;

 (c)資料點根據最鄰近規則重新聚到聚類中心;

 (d)再次更新聚類中心;不斷重複上述過程直到評價标準不再變化

評價标準:

基于matlab的K-means聚類算法

K-means面臨的問題以及解決辦法:

1.它不能保證找到定位聚類中心的最佳方案,但是它能保證能收斂到某個解決方案(不會無限疊代)。

   解決方法:多運作幾次K-means,每次初始聚類中心點不同,最後選擇方差最小的結果。

2.它無法指出使用多少個類别。在同一個資料集中,例如上圖例,選擇不同初始類别數獲得的最終結果是不同的。

    解決方法:首先設類别數為1,然後逐漸提高類别數,在每一個類别數都用上述方法,一般情況下,總方差會很快下降,直到到達一個拐點;這意味着再增加一個聚類中心不會顯著減少方差,儲存此時的聚類數。

MATLAB函數Kmeans

使用方法:

Idx=Kmeans(X,K)

[Idx,C]=Kmeans(X,K) 

[Idx,C,sumD]=Kmeans(X,K) 

[Idx,C,sumD,D]=Kmeans(X,K) 

[…]=Kmeans(…,’Param1’,Val1,’Param2’,Val2,…)

各輸入輸出參數介紹:

X: N*P的資料矩陣,N為資料個數,P為單個資料次元

K: 表示将X劃分為幾類,為整數

Idx: N*1的向量,存儲的是每個點的聚類标号

C: K*P的矩陣,存儲的是K個聚類質心位置

sumD: 1*K的和向量,存儲的是類間所有點與該類質心點距離之和

D: N*K的矩陣,存儲的是每個點與所有質心的距離

[…]=Kmeans(…,'Param1',Val1,'Param2',Val2,…)

這其中的參數Param1、Param2等,主要可以設定為如下:

1. ‘Distance’(距離測度)

    ‘sqEuclidean’ 歐式距離(預設時,采用此距離方式)

    ‘cityblock’ 絕度誤差和,又稱:L1

    ‘cosine’ 針對向量

    ‘correlation’  針對有時序關系的值

    ‘Hamming’ 隻針對二進制資料

2. ‘Start’(初始質心位置選擇方法)

    ‘sample’ 從X中随機選取K個質心點

    ‘uniform’ 根據X的分布範圍均勻的随機生成K個質心

    ‘cluster’ 初始聚類階段随機選擇10%的X的子樣本(此方法初始使用’sample’方法)

     matrix 提供一K*P的矩陣,作為初始質心位置集合

3. ‘Replicates’(聚類重複次數)  整數

案例一:

  1. %随機擷取 個點
  2. X = [randn( , )+ones( , );randn( , )-ones( , );randn( , )+[ones( , ),-ones( , )]];
  3. opts = statset( 'Display', 'final');
  4. %調用Kmeans函數
  5. %X N*P的資料矩陣
  6. %Idx N* 的向量,存儲的是每個點的聚類标号
  7. %Ctrs K*P的矩陣,存儲的是K個聚類質心位置
  8. %SumD *K的和向量,存儲的是類間所有點與該類質心點距離之和
  9. %D N*K的矩陣,存儲的是每個點與所有質心的距離;
  10. [Idx,Ctrs,SumD,D] = kmeans(X, , 'Replicates', , 'Options',opts);
  11. %畫出聚類為 的點。X(Idx== , ),為第一類的樣本的第一個坐标;X(Idx== , )為第二類的樣本的第二個坐标
  12. plot(X(Idx== , ),X(Idx== , ), 'r.', 'MarkerSize', )
  13. hold on
  14. plot(X(Idx== , ),X(Idx== , ), 'b.', 'MarkerSize', )
  15. hold on
  16. plot(X(Idx== , ),X(Idx== , ), 'g.', 'MarkerSize', )
  17. %繪出聚類中心點,kx表示是圓形
  18. plot(Ctrs(:, ),Ctrs(:, ), 'kx', 'MarkerSize', , 'LineWidth', )
  19. plot(Ctrs(:, ),Ctrs(:, ), 'kx', 'MarkerSize', , 'LineWidth', )
  20. plot(Ctrs(:, ),Ctrs(:, ), 'kx', 'MarkerSize', , 'LineWidth', )
  21. legend( 'Cluster 1', 'Cluster 2', 'Cluster 3', 'Centroids', 'Location', 'NW')
  22. Ctrs
  23. SumD

結果圖檔:

基于matlab的K-means聚類算法

案例二:

  1. %K-means聚類
  2. clc,clear;
  3. load tyVector;
  4. X=tyVector '; %列向量變成行向量,209*180矩陣
  5. [x,y]=size(X);
  6. opts = statset('Display ','final ');
  7. K=11; %将X劃分為K類
  8. repN=50; %疊代次數
  9. %K-mean聚類
  10. [Idx,Ctrs,SumD,D] = kmeans(X,K,'Replicates ',repN,'Options ',opts);
  11. %Idx N*1的向量,存儲的是每個點的聚類标号
  12. %列印結果
  13. fprintf('劃分成%d類的結果如下:\n ',K)
  14. for i=1:K
  15. tm=find(Idx==i); %求第i類的對象
  16. tm=reshape(tm,1,length(tm)); %變成行向量
  17. fprintf('第%d類共%d個分别是%s\n ',i,length(tm),int2str(tm)); %顯示分類結果
  18. end
基于matlab的K-means聚類算法
  • <li class="tool-item tool-active is-like "><a href="javascript:;" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow" ><svg class="icon" aria-hidden="true">
                            <use xlink:href="#csdnc-thumbsup" target="_blank" rel="external nofollow" ></use>
                        </svg><span class="name">點贊</span>
                        <span class="count">9</span>
                        </a></li>
                        <li class="tool-item tool-active is-collection "><a href="javascript:;" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  data-report-click="{&quot;mod&quot;:&quot;popu_824&quot;}"><svg class="icon" aria-hidden="true">
                            <use xlink:href="#icon-csdnc-Collection-G" target="_blank" rel="external nofollow" ></use>
                        </svg><span class="name">收藏</span></a></li>
                        <li class="tool-item tool-active is-share"><a href="javascript:;" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow" ><svg class="icon" aria-hidden="true">
                            <use xlink:href="#icon-csdnc-fenxiang" target="_blank" rel="external nofollow" ></use>
                        </svg>分享</a></li>
                        <!--打賞開始-->
                                                <!--打賞結束-->
                                                <li class="tool-item tool-more">
                            <a>
                            <svg t="1575545411852" class="icon" viewBox="0 0 1024 1024" version="1.1" xmlns="http://www.w3.org/2000/svg" p-id="5717" xmlns:xlink="http://www.w3.org/1999/xlink" width="200" height="200"><defs><style type="text/css"></style></defs><path d="M179.176 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5718"></path><path d="M509.684 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5719"></path><path d="M846.175 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5720"></path></svg>
                            </a>
                            <ul class="more-box">
                                <li class="item"><a class="article-report">文章舉報</a></li>
                            </ul>
                        </li>
                                            </ul>
                </div>
                            </div>
            <div class="person-messagebox">
                <div class="left-message"><a href="https://blog.csdn.net/wys7541" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow" >
                    <img src="https://profile.csdnimg.cn/2/5/7/3_wys7541" class="avatar_pic" username="wys7541">
                                            <img src="https://g.csdnimg.cn/static/user-reg-year/2x/2.png" class="user-years">
                                    </a></div>
                <div class="middle-message">
                                        <div class="title"><span class="tit"><a href="https://blog.csdn.net/wys7541" target="_blank" rel="external nofollow"  target="_blank" rel="external nofollow"  data-report-click="{&quot;mod&quot;:&quot;popu_379&quot;}" target="_blank">勿幻想</a></span>
                                            </div>
                    <div class="text"><span>釋出了49 篇原創文章</span> · <span>獲贊 109</span> · <span>通路量 18萬+</span></div>
                </div>
                                <div class="right-message">
                                            <a href="https://im.csdn.net/im/main.html?userName=wys7541" target="_blank" rel="external nofollow"  target="_blank" class="btn btn-sm btn-red-hollow bt-button personal-letter">私信
                        </a>
                                                            <a class="btn btn-sm  bt-button personal-watch" data-report-click="{&quot;mod&quot;:&quot;popu_379&quot;}">關注</a>
                                    </div>
                            </div>
                    </div>
               

K-means聚類算法的一般步驟:

繼續閱讀