天天看點

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

本文在資料集上展示了如何使用dendextend R軟體包來增強Hierarchical Cluster Analysis(更好的可視化和靈敏度分析)。

背景

鸢尾花資料集

我們可以看到,Setosa物種與Versicolor和Virginica明顯不同(它們具有較低的花瓣長度和寬度)。但是,基于對萼片和花瓣寬度/長度的測量,不易将Versicolor和Virginica分開。

通過檢視資料的平行坐标圖可以得出同樣的結論:

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

我們可以通過将對象轉化為樹狀圖并對對象進行一些調整來可視化運作它的結果

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

點選标題查閱往期内容

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

​​SPSS用KMEANS(K均值)、兩階段聚類、RFM模型在P2P網絡金融研究借款人、出款人行為資料規律​​

左右滑動檢視更多

01

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

02

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

03

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

04

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

相同的可以在圓形布局中呈現:

這些可視化很容易證明分層聚類的分離對于“Setosa”物種來說是非常好的,但是在将許多“Versicolor”物種标記為“Virginica”時未能實作。

我們也可以使用熱圖探索資料。

在熱圖中,我們還可以看到Setosa物種的花瓣值如何(淺黃色),但很難看出其他兩種物種之間的明顯差別。

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

各種聚類算法之間的相似/不同

為了進行這種分析,我們将建立所有8個hclust對象,并将它們連結在一起成為一個dendlist對象(顧名思義,它可以将一組樹狀圖組合在一起用于進一步分析)。

接下來,我們可以看看每個聚類結果之間的同源相關性cor.dendlist。(這可以使用corrplot包中的corrplot函數很好地繪制):

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

從上圖中我們可以很容易地看到,除了完整的方法(預設方法in hclust),大多數聚類方法的結果非常相似,其結果相關度大約為0.6。

預設的同源相關使用皮爾遜的度量,但如果我們使用spearman的相關系數呢?

R語言鸢尾花iris資料集的層次聚類分析|附代碼資料

繼續閱讀