Spark mllib k-means 聚合

2022-08-08 23:12:25

K-Means算法是一種基于距離的聚類算法，采用疊代的方法，計算出K個聚類中心，把若幹個點聚成K類。

package com.immooc.spark

import org.apache.log4j.{Level, Logger}

import org.apache.spark.mllib.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.{SparkConf, SparkContext}

object KMeansTest {

def main(args:Array[String]): Unit = {

val conf = new SparkConf().setAppName("KMeansTest").setMaster("local[2]")

val sc = new SparkContext(conf)

Logger.getRootLogger.setLevel(Level.WARN)

// 讀取樣本資料1，格式為LIBSVM format

val data = sc.textFile("file:///Users/walle/Documents/D3/sparkmlib/kmeans_data.txt")

val parsedData = data.map(s => Vectors.dense(s.split(' ').map(_.toDouble))).cache()

// 建立KMeans聚類模型，并訓練

val initMode = "k-means||"

val numClusters = 4

val numIterations = 100

val model = new KMeans().

setInitializationMode(initMode).

setK(numClusters).

setMaxIterations(numIterations).

run(parsedData)

val centers = model.clusterCenters

println("centers")

for (i <- 0 to centers.length - 1) {

println(centers(i)(0) + "\t" + centers(i)(1))

}

// 誤差計算

val WSSSE = model.computeCost(parsedData)

println("Within Set Sum of Squared Errors = " + WSSSE)

}

1. 輸出

centers

9.05 9.05

0.05 0.05

9.2 9.2

0.2 0.2

Within Set Sum of Squared Errors = 0.03000000000004321

Spark mllib k-means 聚合

繼續閱讀

搭建httpd服務

windows下配置Apache的vhost初次接觸，強烈歡迎拍磚，指出錯誤

Apache與PHP環境下配置本地虛拟主機

Linux 7 中配置Apache服務，及禁止ip通路，删除apache廣告頁面。

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結