拓端tecdat|R語言輔導使用K-Means聚類可視化WiFi通路

2022-11-09 11:57:27

R語言使用K-Means聚類可視化WiFi通路

可視化已成為資料科學在電信行業中的關鍵應用。具體而言，電信分析高度依賴于地理空間資料的使用。

這是因為電信網絡本身在地理上是分散的，并且對這種分散的分析可以産生關于網絡結構，消費者需求和可用性的有價值的見解。

資料

為了說明這一點，使用k均值聚類算法來分析免費公共WiFi的地理資料。

具體地，k均值聚類算法用于基于與特定提供商相關聯的緯度和經度資料來形成WiFi使用的叢集。

從資料集本身，使用R提取緯度和經度資料：

＃1 
newyorkdf <-data.frame（紐約$ LAT，紐約$ LON）

這是一個資料片段：

确定群集的數量

現在，需要使用scree圖确定簇的數量。

＃2。确定群集的數量

從上面可以看出，曲線在大約11個星團處平穩。是以，這是将在k-means模型中使用的聚類數。

K均值分析

K-Means分析本身是：

ggplot（newyorkdf，aes（x = newyork.LON，y = newyork.LAT，color = newyorkdf $ fit.cluster））+ geom_point（）

在資料框newyorkdf中，顯示緯度和經度資料以及群集标簽：

> newyorkdf
      newyork.LAT newyork.LON fit.cluster
1 40.75573 -73.94458 1
2 40.75533 -73.94413 1
3 40.75575 -73.94517 1
4 40.75575 -73.94517 1
5 40.75575 -73.94517 1
6 40.75575 -73.94517 1
.....
80 40.84832 -73.82075 11
81 40.84923 -73.82105 11
82 40.84920 -73.82106 11
83 40.85021 -73.82175 11
84 40.85023 -73.82178 11
85 40.86444 -73.89455 11

這個例子很有用，但理想的情況是将這些叢集附加到紐約市本身的地圖上。

地圖可視化

為了生成紐約市的地圖，如下所示。

gg +
  geom_point（data = newyorkdf，aes（x = newyork.LON，y = newyork.LAT），
             color = newyorkdf $ fit.cluster，alpha = .5）+ ggtitle（“紐約公共WiFi”）

運作上述内容後，将生成NYC地圖以及相關群集：

這種類型的聚類可以深入了解城市中WiFi網絡的結構。例如，群集1中有650個單獨的點，而群集6中存在100個點。

這表明由叢集1标記的地理區域顯示了大量的WiFi流量。另一方面，群集6中較低數量的連接配接訓示低WiFi流量。

K-Means聚類本身并不能告訴我們為什麼特定叢集的流量高或低。但是，此聚類算法為進一步分析提供了一個很好的起點，并且可以更輕松地收集其他資訊，以确定一個地理叢集的流量密度可能高于另一個地理叢集的原因。

拓端tecdat|R語言輔導使用K-Means聚類可視化WiFi通路

資料

确定群集的數量

K均值分析

地圖可視化

結論

繼續閱讀

Kafka：Topic概念與API介紹

5G小型蜂應用指南

PAT (Advanced Level) Practise 1012 The Best Rank (25)

mysql5.7的sql優化

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

詳解STM32單片機的堆棧