spark mllib機器學習之三 FPGrowth

2023-05-06 19:31:25

資料格式：

蘋果梨香蕉

梨牛奶洋芋

蘋果香蕉狗

狗洋芋

洋芋牛奶鹽

鹽梨狗

蘋果梨狗

package com.agm.guanlian

import org.apache.spark.mllib.fpm.FPGrowth

import org.apache.spark.{SparkConf, SparkContext}

import java.io._

import org.apache.log4j.{Level, Logger}

object FPGrowth {

def main(args:Array[String]){

Logger.getLogger("org").setLevel(Level.ERROR)

val conf = new SparkConf().setAppName("FPGrowthTest").setMaster("local").set("spark.sql.warehouse.dir","E:/ideaWorkspace/ScalaSparkMl/spark-warehouse")

val sc = new SparkContext(conf)

//設定參數

//最小支援度

val minSupport=0.2

//最小置信度

val minConfidence=0.6

//資料分區

val numPartitions=2

//取出資料

val data = sc.textFile("F:\\testData\\spark\\FPGrowth.txt")

//把資料通過空格分割

val transactions=data.map(x=>x.split(" "))

transactions.cache()

//建立一個FPGrowth的算法實列

val fpg = new FPGrowth()

//設定訓練時候的最小支援度和資料分區

fpg.setMinSupport(minSupport)

fpg.setNumPartitions(numPartitions)

//把資料帶入算法中

val model = fpg.run(transactions)

//檢視所有的頻繁項集，并且列出它出現的次數

model.freqItemsets.collect().foreach(itemset=>{

println( itemset.items.mkString("[", ",", "]")+","+itemset.freq)

})

//通過置信度篩選出推薦規則則

//antecedent表示前項

//consequent表示後項

//confidence表示規則的置信度

//這裡可以把規則寫入到Mysql資料庫中，以後使用來做推薦

//如果規則過多就把規則寫入redis，這裡就可以直接從記憶體中讀取了，我選擇的方式是寫入Mysql，然後再把推薦清單寫入redis

model.generateAssociationRules(minConfidence).collect().foreach(rule=>{

println(rule.antecedent.mkString(",")+"-->"+

rule.consequent.mkString(",")+"-->"+ rule.confidence)

})

//檢視規則生成的數量

println(model.generateAssociationRules(minConfidence).collect().length)

//并且所有的規則産生的推薦，後項隻有1個，相同的前項産生不同的推薦結果是不同的行

//不同的規則可能會産生同一個推薦結果，是以樣本資料過規則的時候需要去重

}

spark mllib機器學習之三 FPGrowth

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結