我的Spark源碼核心SparkContext走讀全紀錄

2016-09-23 20:22:24

Dirver Program(SparkConf) package org.apache.spark.SparkConf

Master package org.apache.spark.deploy.master

SparkContext package org.apache.spark.SparkContext

Stage package org.apache.spark.scheduler.Stage

Task package org.apache.spark.scheduler.Task

DAGScheduler package org.apache.spark.scheduler

TaskScheduler package org.apache.spark.scheduler.TaskScheduler

TaskSchedulerImpl package org.apache.spark.scheduler

Worker package org.apache.spark.deploy.worker

Executor package org.apache.spark.executor

BlockManager package org.apache.spark.storage

TaskSet package org.apache.spark.scheduler

//初始化後開始建立

// Create and start the scheduler

val (sched, ts) = SparkContext.createTaskScheduler(this, master)

_schedulerBackend = sched

_taskScheduler = ts

_dagScheduler = new DAGScheduler(this)

_heartbeatReceiver.send(TaskSchedulerIsSet)

/**

* Create a task scheduler based on a given master URL.

* Return a 2-tuple of the scheduler backend and the task scheduler.

private def createTaskScheduler(

sc: SparkContext,

master: String): (SchedulerBackend, TaskScheduler) = {

master match {

case "local" =>

執行個體化一個

val scheduler = new TaskSchedulerImpl(sc)

建構masterUrls：

val masterUrls = localCluster.start()

據說是非常關鍵的backend：

val backend = new SparkDeploySchedulerBackend(scheduler, sc, masterUrls)

scheduler.initialize(backend)

backend.shutdownCallback = (backend: SparkDeploySchedulerBackend) => {

localCluster.stop()

}

我的Spark源碼核心SparkContext走讀全紀錄

繼續閱讀

pyspark調用spark以及執行帶in語句參數的hql示例

用寫sql的思路寫 pyspark

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結