Spark Shuffle模块——Suffle Read过程分析

2021-11-07 11:57:14

spark shuffle read调用栈如下：

1. org.apache.spark.rdd.shuffledrdd#compute()

2. org.apache.spark.shuffle.shufflemanager#getreader()

3. org.apache.spark.shuffle.hash.hashshufflereader#read()

4. org.apache.spark.storage.shuffleblockfetcheriterator#initialize()

5. org.apache.spark.storage.shuffleblockfetcheriterator#splitlocalremoteblocks()

org.apache.spark.storage.shuffleblockfetcheriterator#sendrequest()

org.apache.spark.storage.shuffleblockfetcheriterator#fetchlocalblocks()

下面是fetchlocalblocks()方法执行时涉及到的类和对应方法：

6. org.apache.spark.storage.blockmanager#getblockdata()

org.apache.spark.shuffle.hash.shufflemanager#shuffleblockresolver()

shufflemanager有两个子类，如果是hashshuffle 则对应的是org.apache.spark.shuffle.hash.hashshufflemanager#shuffleblockresolver()方法，该方法返回的是org.apache.spark.shuffle.fileshuffleblockresolver，再调用fileshuffleblockresolver#getblockdata()方法返回block数据

；如果是sort shuffle，则对应的是

org.apache.spark.shuffle.hash.sortshufflemanager#shuffleblockresolver()，该方法返回的是org.apache.spark.shuffle.indexshuffleblockresolver，然后再调用indexshuffleblockresolver#getblockdata()返回block数据。

下面是org.apache.spark.storage.shuffleblockfetcheriterator#sendrequest()方法执行时涉及到的类和对应方法

org.apache.spark.network.shuffle.shuffleclient#fetchblocks

org.apache.spark.network.shuffle.shuffleclient有两个子类，分别是externalshuffleclient及blocktransferservice

，其中org.apache.spark.network.shuffle.blocktransferservice又有两个子类，分别是nettyblocktransferservice和nioblocktransferservice，对应两种不同远程获取block数据方式，spark 1.5.2中已经将nioblocktransferservice方式设置为deprecated，在后续版本中将被移除

下面按上述调用栈对各方法进行说明，这里只讲脉络，细节后面再讨论

task执行时，调用shuffledrdd的compute方法，其代码如下：

可以看到，其核心逻辑是通过调用shufflemanager#getreader()方法得到hashshufflereader对象，然后调用hashshufflereader#read()方法完成前一stage中shufflemaptask生成的shuffle 数据的读取。需要说明的是，无论是hash shuffle还是sort shuffle，使用的都是hashshufflereader。

跳到hashshufflereader#read()方法当中，其源码如下：

splitlocalremoteblocks()方法确定数据的读取策略，localblocks变量记录在本地机器的blockid，remoteblocks变量则用于记录所有在远程机器上的blockid。远程数据块被分割成最大为maxsizeinflight大小的fetchrequests

splitlocalremoteblocks()方法具有源码如下：

fetchlocalblocks()方法进行本地block的读取，调用的是blockmanager的getblockdata方法，其源代码如下：

跳转到blockmanager的getblockdata方法，可以看到其源代码如下：

org.apache.spark.shuffle.hash.shufflemanager#shuffleblockresolver()方法获取相应的shuffleblockresolver，如果是hash shuffle，则

是org.apache.spark.shuffle.fileshuffleblockresolver，如果是sort shuffle则org.apache.spark.shuffle.indexshuffleblockresolver。然后调用对应shuffleblockresolver的getblockdata方法，返回对应的filesegment。

fileshuffleblockresolver#getblockdata方法源码如下：

indexshuffleblockresolver#getblockdata方法源码如下：

sendrequest()方法用于从远程机器上获取数据

通过上面的代码可以看到，代码使用的是shuffleclient.fetchblocks进行远程block数据的获取，org.apache.spark.network.shuffle.shuffleclient有两个子类，分别是externalshuffleclient和blocktransferservice，而org.apache.spark.network.shuffle.blocktransferservice又有两个子类，分别是nettyblocktransferservice和nioblocktransferservice，shuffleclient 对象在 org.apache.spark.storage.blockmanager定义，其源码如下：

代码中的blocktransferservice在sparkenv中被初始化，具体如下：

Spark Shuffle模块——Suffle Read过程分析

继续阅读

oracle 中不使用已有的索引解决办法

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

对first_name创建唯一索引uniq_idx_firstname问题描述Sql语句

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

记一次因MySQL编码问题导致的慢查询排查

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结