聚類分析 #聚類 #聚類分析 #類變量

資料分析入門與實戰公衆号： weic2c

物以類聚，人以群分，聚類分析是一種重要的多變量統計方法，但記住其實它是一種資料分析方法，不能進行統計推斷的。當然，聚類分析主要應用在市場細分等領域，我們也經常采用聚類分析技術來實作對抽樣框的分層，我就不多羅嗦了。

聚類分析：顧名思義是一種分類的多元統計分析方法。按照個體或樣品(individuals, objects or subjects)的特征将它們分類，使同一類别内的個體具有盡可能高的同質性(homogeneity)，而類别之間則應具有盡可能高的異質性(heterogeneity)。

我們也可以對變量進行聚類—分類，但是更常見的還是對個體分類（樣本聚類——細分）。為了得到比較合理的分類，首先要采用适當的名額來定量地描述研究對象（樣本或變量，常用的是樣本）之間的聯系的緊密程度。常用的名額為“距離”和“相似系數”，假定研究對象均用所謂的“點”來表示。

在聚類分析中，一般的規則是将“距離”較小的點或“相似系數”較大的點歸為同一類，将“距離”較大的點或“相似系數”較小的點歸為不同的類！（一般的相似系數就是相關系數了）

基本概念：

需要一組表示個體性質或特征的變量，稱之為聚類變量。根據個體或樣本之間聯系的緊密程度進行分類。一般來說分類變量的組合都是由研究者規定的，不是像其它多元分析方法那樣估計推導出來的。

聚類分析前所有個體或樣本所屬的類别是未知的，類别個數一般也是未知的，分析的依據就是原始資料，沒有任何事先的有關類别的資訊可參考。是以：嚴格說來聚類分析并不是純粹的統計技術，它不像其它多元分析法那樣，需要從樣本去推斷總體。聚類分析一般都涉及不到有關統計量的分布，也不需要進行顯著性檢驗。聚類分析更像是一種建立假設的方法，而對假設的檢驗還需要借助其它統計方法。

聚類方法：

聚類分析簡單、直覺。
聚類分析主要應用于探索性的研究，其分析的結果可以提供多個可能的解，選擇最終的解需要研究者的主觀判斷和後續的分析；
不管實際資料中是否真正存在不同的類别，利用聚類分析都能得到分成若幹類别的解；
聚類分析的解完全依賴于研究者所選擇的聚類變量，增加或删除一些變量對最終的解都可能産生實質性的影響。
研究者在使用聚類分析時應特别注意可能影響結果的各個因素。
異常值和特殊的變量對聚類有較大影響當分類變量的測量尺度不一緻時，需要事先做标準化處理。

當然，聚類分析不能做的事情是：

自動發現和告訴你應該分成多少個類——屬于非監督類分析方法
期望能很清楚的找到大緻相等的類或細分市場是不現實的；
樣本聚類，變量之間的關系需要研究者決定；
不會自動給出一個最佳聚類結果；

我這裡提到的聚類分析主要是譜系聚類（hierarchical clustering）和快速聚類（K-means）、兩階段聚類（Two-Step）；

根據聚類變量得到的描述兩個個體間（或變量間）的對應程度或聯系緊密程度的度量。

可以用兩種方式來測量：

采用描述個體對（變量對）之間的接近程度的名額，例如“距離”，“距離”越小的個體（變量）越具有相似性。
采用表示相似程度的名額，例如“相關系數”，“相關系數”越大的個體（變量）越具有相似性。

計算聚類——距離名額D(distance)的方法非常多：按照資料的不同性質，可選用不同的距離名額。歐氏距離(Euclidean distance)、歐氏距離的平方(Squared Euclidean distance)、曼哈頓距離(Block)、切比雪夫距離(Chebychev distance)、卡方距離(Chi-aquare measure) 等；相似性也有不少，主要是皮爾遜相關系數了！

注意：上面主要在譜系聚類方法中采用，但譜系聚類主要用在變量聚類上，如果對樣本聚類樣本不能太多了，否則你要等很長時間，還不一定有用！

總體推薦：

聚類變量的測量尺度不同，需要事先對變量标準化；
聚類變量中如果有些變量非常相關，意味着這個變量的權重會更大
歐式距離的平方是最常用的距離測量方法；
聚類算法要比距離測量方法對聚類結果影響更大；
标準化方法影響聚類模式：
變量标準化傾向産生基于數量的聚類；
樣本标準化傾向産生基于模式的聚類；
一般聚類個數在4－6類，不易太多，或太少；
資料挖掘軟體中的聚類更理想

當然我現在聚類都用資料挖掘技術了，其實聚類分析采用資料挖掘技術更合理，畢竟是發現知識，我們事先不知道是否存在顯著差異的細分市場，而且往往在統計分析聚類中，需要研究者主觀給出聚類變量，得到的結果也可能是研究者或客戶能想到的，往往客戶最希望得到事先不知道的，直覺不能感覺到的，資料挖掘就展現了這一點。當然采用資料挖掘軟體得到的聚類結果，也更直覺，最重要的是采用SPSS聚類的結果要呈現出來，是個體力活，用Clementine得到的結果就非常容易看出來和了解了！

關于市場細分中的聚類分析，主要是采用兩階段聚類或快速聚類，一般要先進行因子分析，聚類分析，類的識别，聚成幾類，類的穩定性測試，選擇目标類，定位，描述細分市場，市場營銷組合等！

聚類分析

繼續閱讀

機器學習聚類問題

模式識别--緒論什麼是模式識别？模式識别的主要方法及具體應用

PCA(主成分分析)降維可視化Matlab實作

數理統計——Kmeans一、聚類二、程式實作三、各種算法對比1.KMeans++2.Mini Batch K-Means3.如何确定合适的k值

拓端tecdat|R語言代寫實作層次聚類模型

拓端tecdat|R語言輔導使用K-Means聚類可視化WiFi通路

拓端tecdat|R語言代寫：EM算法和高斯混合模型的實作

拓端tecdat|R語言輔導中不同類型的聚類方法比較

ICCV何恺明團隊又一神作：Transformer仍有繼續改善的空間

經典算法筆記：無監督算法（聚類、降維）

【基礎算法】常見的ML、DL程式設計題

項目案例：基于 YOLO 的鋁型材表面缺陷識别

層次聚類算法介紹1層次聚類的定義2距離與相似性3合并算法思想4算法流程5 示例與分析6需注意的問題

跟着Cell學單細胞轉錄組分析(十二):轉錄因子分析

機器學習 day7 kmeans 聚類算法

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取