spark计算用户访问学科子网页的top3

2023-07-01 02:31:33

项目说明：附件为要计算数据的demo。点击打开链接

利用spark的缓存机制，读取需要筛选的数据，自定义一个分区器，将不同的学科数据分别放到一个分区器中，并且根据指定的学科，取出点击量前三的数据，并写入文件。

具体程序如下：

1、项目主程序：

  package cn.allengao.Location       
           import java.net.URL       
           import org.apache.spark.rdd.RDD       
       import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}       
       /**       
       * class_name:       
       * package:       
       * describe: 缓存机制，自定义一个分区器，根据指定的学科, 取出点击量前三的，按照每种学科数据放到不同的分区器里       
       * creat_user: Allen Gao       
       * creat_date: 2018/1/30       
       * creat_time: 11:21       
       **/       
           object AdvUrlCount {       
           def main(args: Array[String]) {       
           //从数据库中加载规则       
       // val arr = Array("java.learn.com", "php.learn.com", "net.learn.com")       
           val conf = new SparkConf().setAppName(          "AdvUrlCount").setMaster(          "local[2]")       
       val sc = new SparkContext(conf)       
           //获取数据       
       val file = sc.textFile(          "j://information/learn.log")       
       //提取出url并生成一个元祖，rdd1将数据切分，元组中放的是（URL， 1）       
       val urlAndOne = file.map(line => {       
       val fields = line.split(          "\t")       
       val url = fields(          )       
       (url,           )       
       })       
       //把相同的url进行聚合       
       val sumedUrl = urlAndOne.reduceByKey(_ + _)       
           //获取学科信息缓存,提高运行效率       
       val cachedProject = sumedUrl.map(x => {       
       val url = x._1       
       val project = new URL(url).getHost       
       val count = x._2       
       (project, (url, count))       
       }).cache()       
           //调用Spark自带的分区器此时会发生哈希碰撞，会有数据倾斜问题产生，需要自定义分区器       
       // val res = cachedProject.partitionBy(new HashPartitioner(3))       
       // res.saveAsTextFile("j://information//out")       
           //得到所有学科       
       val projects = cachedProject.keys.distinct().collect()       
       //调用自定义分区器并得到分区号       
       val partitioner = new ProjectPartitioner(projects)       
           //分区       
       val partitioned: RDD[(String, (String,           Int))] = cachedProject.partitionBy(partitioner)       
           //对每个分区的数据进行排序并取top3       
       val res = partitioned.mapPartitions(it => {       
       it.toList.sortBy(_._2._2).reverse.take(          ).iterator       
       })       
       res.saveAsTextFile(          "j://information//out1")       
           sc.stop()       
       }       
       }

2、自定义分区器：

  package cn.allengao.          Location       
           import org.apache.spark.Partitioner       
           import scala.collection.mutable       
           class ProjectPartitioner(projects: Array[String]) extends Partitioner {       
       //用来存放学科和分区号       
       private val projectsAndPartNum = new mutable.          HashMap[          String,          Int]()       
       //计数器，用于指定分区号       
       var n =       
           for(pro<-projects){       
       projectsAndPartNum += (pro -> n)       
       n +=       
       }       
       //得到分区数       
       override def numPartitions = projects.length       
       //得到分区号       
       override def getPartition(key:           Any) = {       
       projectsAndPartNum.getOrElse(key.          toString,          )       
       }       
       }

运行结果：

spark计算用户访问学科子网页的top3

spark计算用户访问学科子网页的top3

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结