pyspark求学生平均成绩

2023-05-07 03:50:59

一、环境：

操作系统：Ubuntu18.04

Python 3.6.9

Spark 2.4.6

二、问题及题解

pyspark求学生平均成绩

解题思路：

1、过滤掉选修的成绩记录，然后通过map构造（姓名，成绩）的键值对，经过一系列处理后通过得到每个学生必修课的平均成绩（代码即可看出思路）

pyspark求学生平均成绩

2.通过自定义函数处理每个（姓名，平均分）键值对返回（“分数段”，1）键值对然后通过reduceBykey聚合得到每个分数段的总人数

pyspark求学生平均成绩

三、测试数据、测试过程、测试结果

数据：

pyspark求学生平均成绩

过程及结果:

pyspark求学生平均成绩

四、源码：

from pyspark import SparkConf,SparkContext


def map_func(x):
    s = x.split(",")
    return (s[1], int(s[4])) 
 
def map_func1(x):
    if(x>=90 and x<=100):
        return ("90~100", 1) 
    if(x>=80 and x<=89):
        return ("80~89", 1) 
    if(x>=70 and x<=79):
        return ("70~79", 1) 
    if(x>=60 and x<=69):
        return ("60~69", 1) 
    if(x<60):
        return ("<60:", 1) 
        
conf = SparkConf().setMaster("local").setAppName("homework1")
sc = SparkContext(conf=conf)

textData = sc.textFile("/input_file1.txt")
lines = textData.filter(lambda line : "bixiu" in line).map(lambda x:map_func(x))

avgData = lines.mapValues(lambda x : (x,1)).reduceByKey(lambda x,y : (x[0]+y[0],x[1] + y[1])).mapValues(lambda x : int(x[0] / x[1]))

avgData.saveAsTextFile("/result1")

fData = avgData.map(lambda x:map_func1(x[1])).reduceByKey(lambda x,y : (x+y))

fData.saveAsTextFile("/result2")

参考资料：厦门大学数据库实验室spark（Python版）部分章节（暂时找不到具体链接了）

pyspark求学生平均成绩

一、环境：

二、问题及题解

三、测试数据、测试过程、测试结果

四、源码：

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结