R語言使用K-Means聚類可視化WiFi通路
可視化已成為資料科學在電信行業中的關鍵應用。具體而言,電信分析高度依賴于地理空間資料的使用。
這是因為電信網絡本身在地理上是分散的,并且對這種分散的分析可以産生關于網絡結構,消費者需求和可用性的有價值的見解。
資料
為了說明這一點,使用k均值聚類算法來分析免費公共WiFi的地理資料。
具體地,k均值聚類算法用于基于與特定提供商相關聯的緯度和經度資料來形成WiFi使用的叢集。
從資料集本身,使用R提取緯度和經度資料:
#1
newyorkdf <-data.frame(紐約$ LAT,紐約$ LON)
這是一個資料片段:

确定群集的數量
現在,需要使用scree圖确定簇的數量。
#2。确定群集的數量
從上面可以看出,曲線在大約11個星團處平穩。是以,這是将在k-means模型中使用的聚類數。
K均值分析
K-Means分析本身是:
ggplot(newyorkdf,aes(x = newyork.LON,y = newyork.LAT,color = newyorkdf $ fit.cluster))+ geom_point()
在資料框newyorkdf中,顯示緯度和經度資料以及群集标簽:
> newyorkdf
newyork.LAT newyork.LON fit.cluster
1 40.75573 -73.94458 1
2 40.75533 -73.94413 1
3 40.75575 -73.94517 1
4 40.75575 -73.94517 1
5 40.75575 -73.94517 1
6 40.75575 -73.94517 1
.....
80 40.84832 -73.82075 11
81 40.84923 -73.82105 11
82 40.84920 -73.82106 11
83 40.85021 -73.82175 11
84 40.85023 -73.82178 11
85 40.86444 -73.89455 11
這個例子很有用,但理想的情況是将這些叢集附加到紐約市本身的地圖上。
地圖可視化
為了生成紐約市的地圖 ,如下所示。
gg +
geom_point(data = newyorkdf,aes(x = newyork.LON,y = newyork.LAT),
color = newyorkdf $ fit.cluster,alpha = .5)+ ggtitle(“紐約公共WiFi”)
運作上述内容後,将生成NYC地圖以及相關群集:
這種類型的聚類可以深入了解城市中WiFi網絡的結構。例如,群集1中有650個單獨的點,而群集6中存在100個點。
這表明由叢集1标記的地理區域顯示了大量的WiFi流量。另一方面,群集6中較低數量的連接配接訓示低WiFi流量。
K-Means聚類本身并不能告訴我們為什麼特定叢集的流量高或低。但是,此聚類算法為進一步分析提供了一個很好的起點,并且可以更輕松地收集其他資訊,以确定一個地理叢集的流量密度可能高于另一個地理叢集的原因。