spark架構及原理

參見 http://www.cnblogs.com/tgzhu/p/5818374.html

Apache Spark是一個圍繞速度、易用性和複雜分析建構的大資料處理架構，最初在2009年由加州大學伯克利分校的AMPLab開發，并于2010年成為Apache的開源項目之一，與Hadoop和Storm等其他大資料和MapReduce技術相比，Spark有如下優勢：

Spark提供了一個全面、統一的架構用于管理各種有着不同性質（文本資料、圖表資料等）的資料集和資料源（批量資料或實時的流資料）的大資料處理的需求
官方資料介紹Spark可以将Hadoop叢集中的應用在記憶體中的運作速度提升100倍，甚至能夠将應用在磁盤上的運作速度提升10倍

目标：

架構及生态
spark 與 hadoop
運作流程及特點
常用術語
standalone模式
yarn叢集
RDD運作流程

架構及生态：

spark架構及原理

Spark Core：包含Spark的基本功能；尤其是定義RDD的API、操作以及這兩者上的動作。其他Spark的庫都是建構在RDD和Spark Core之上的
Spark SQL：提供通過Apache Hive的SQL變體Hive查詢語言（HiveQL）與Spark進行互動的API。每個資料庫表被當做一個RDD，Spark SQL查詢被轉換為Spark操作。
Spark Streaming：對實時資料流進行處理和控制。Spark Streaming允許程式能夠像普通RDD一樣處理實時資料
MLlib：一個常用機器學習算法庫，算法被實作為對RDD的Spark操作。這個庫包含可擴充的學習算法，比如分類、回歸等需要對大量資料集進行疊代的操作。
GraphX：控制圖、并行圖操作和計算的一組算法和工具的集合。GraphX擴充了RDD API，包含控制圖、建立子圖、通路路徑上所有頂點的操作.

Spark架構的組成圖:

spark架構及原理

Cluster Manager：在standalone模式中即為Master主節點，控制整個叢集，監控worker。在YARN模式中為資料總管
Worker節點：從節點，負責控制計算節點，啟動Executor或者Driver。
Driver：運作Application 的main()函數
Executor：執行器，是為某個Application運作在worker node上的一個程序

運作流程及特點：

spark架構及原理

建構Spark Application的運作環境，啟動SparkContext
SparkContext向資料總管（可以是Standalone，Mesos，Yarn）申請運作Executor資源，并啟動StandaloneExecutorbackend，
Executor向SparkContext申請Task
SparkContext将應用程式分發給Executor
SparkContext建構成DAG圖，将DAG圖分解成Stage、将Taskset發送給Task Scheduler，最後由Task Scheduler将Task發送給Executor運作
Task在Executor上運作，運作完釋放所有資源

Spark運作特點：

每個Application擷取專屬的executor程序，該程序在Application期間一直駐留，并以多線程方式運作Task。這種Application隔離機制是有優勢的，無論是從排程角度看（每個Driver排程他自己的任務），還是從運作角度看（來自不同Application的Task運作在不同JVM中），當然這樣意味着Spark Application不能跨應用程式共享資料，除非将資料寫入外部存儲系統
Spark與資料總管無關，隻要能夠擷取executor程序，并能保持互相通信就可以了
送出SparkContext的Client應該靠近Worker節點（運作Executor的節點），最好是在同一個Rack裡，因為Spark Application運作過程中SparkContext和Executor之間有大量的資訊交換
Task采用了資料本地性和推測執行的優化機制

常用術語:

Application: Appliction都是指使用者編寫的Spark應用程式，其中包括一個Driver功能的代碼和分布在叢集中多個節點上運作的Executor代碼
Driver: Spark中的Driver即運作上述Application的main函數并建立SparkContext，建立SparkContext的目的是為了準備Spark應用程式的運作環境，在Spark中有SparkContext負責與ClusterManager通信，進行資源申請、任務的配置設定和監控等，當Executor部分運作完畢後，Driver同時負責将SparkContext關閉，通常用SparkContext代表Driver
Executor: 某個Application運作在worker節點上的一個程序，該程序負責運作某些Task，并且負責将資料存到記憶體或磁盤上，每個Application都有各自獨立的一批Executor，在Spark on Yarn模式下，其程序名稱為CoarseGrainedExecutor Backend。一個CoarseGrainedExecutor Backend有且僅有一個Executor對象，負責将Task包裝成taskRunner,并從線程池中抽取一個空閑線程運作Task，這個每一個oarseGrainedExecutor Backend能并行運作Task的數量取決與配置設定給它的cpu個數
Cluter Manager： 指的是在叢集上擷取資源的外部服務。目前有三種類型

1. Standalon : spark原生的資源管理，由Master負責資源的配置設定
2. Apache Mesos:與hadoop MR相容性良好的一種資源排程架構
3. Hadoop Yarn: 主要是指Yarn中的ResourceManager

Worker: 叢集中任何可以運作Application代碼的節點，在Standalone模式中指的是通過slave檔案配置的Worker節點，在Spark on Yarn模式下就是NoteManager節點
Task: 被送到某個Executor上的工作單元，但hadoopMR中的MapTask和ReduceTask概念一樣，是運作Application的基本機關，多個Task組成一個Stage，而Task的排程和管理等是由TaskScheduler負責
Job: 包含多個Task組成的并行計算，往往由Spark Action觸發生成，一個Application中往往會産生多個Job
Stage: 每個Job會被拆分成多組Task，作為一個TaskSet，其名稱為Stage，Stage的劃分和排程是有DAGScheduler來負責的，Stage有非最終的Stage（Shuffle Map Stage）和最終的Stage（Result Stage）兩種，Stage的邊界就是發生shuffle的地方
DAGScheduler: 根據Job建構基于Stage的DAG（Directed Acyclic Graph有向無環圖)，并送出Stage給TASkScheduler。其劃分Stage的依據是RDD之間的依賴的關系找出開銷最小的排程方法，如下圖

spark架構及原理

TASKSedulter: 将TaskSET送出給worker運作，每個Executor運作什麼Task就是在此處配置設定的. TaskScheduler維護所有TaskSet，當Executor向Driver發生心跳時，TaskScheduler會根據資源剩餘情況配置設定相應的Task。另外TaskScheduler還維護着所有Task的運作标簽，重試失敗的Task。下圖展示了TaskScheduler的作用

spark架構及原理

在不同運作模式中任務排程器具體為:

Spark on Standalone模式為TaskScheduler
YARN-Client模式為YarnClientClusterScheduler
YARN-Cluster模式為YarnClusterScheduler

将這些術語串起來的運作層次圖如下：

spark架構及原理

Job=多個stage，Stage=多個同種task, Task分為ShuffleMapTask和ResultTask，Dependency分為ShuffleDependency和NarrowDependency.

運作過程如下圖

standalone: 獨立叢集運作模式

spark架構及原理

SparkContext連接配接到Master，向Master注冊并申請資源（CPU Core 和Memory）
Master根據SparkContext的資源申請要求和Worker心跳周期内報告的資訊決定在哪個Worker上配置設定資源，然後在該Worker上擷取資源，然後啟動StandaloneExecutorBackend；
StandaloneExecutorBackend向SparkContext注冊；
SparkContext将Applicaiton代碼發送給StandaloneExecutorBackend；并且SparkContext解析Applicaiton代碼，建構DAG圖，并送出給DAG Scheduler分解成Stage（當碰到Action操作時，就會催生Job；每個Job中含有1個或多個Stage，Stage一般在擷取外部資料和shuffle之前産生），然後以Stage（或者稱為TaskSet）送出給Task Scheduler，Task Scheduler負責将Task配置設定到相應的Worker，最後送出給StandaloneExecutorBackend執行；
StandaloneExecutorBackend會建立Executor線程池，開始執行Task，并向SparkContext報告，直至Task完成
所有Task完成後，SparkContext向Master登出，釋放資源

yarn

spark架構及原理

Spark Yarn Client向YARN的ResourceManager申請啟動Application Master。同時在SparkContent初始化中将建立DAGScheduler和TASKScheduler等，由于我們選擇的是Yarn-Client模式，程式會選擇YarnClientClusterScheduler和YarnClientSchedulerBackend
ResourceManager收到請求後，在叢集中選擇一個NodeManager，為該應用程式配置設定第一個Container，要求它在這個Container中啟動應用程式的ApplicationMaster，與YARN-Cluster差別的是在該ApplicationMaster不運作SparkContext，隻與SparkContext進行聯系進行資源的分派
Client中的SparkContext初始化完畢後，與ApplicationMaster建立通訊，向ResourceManager注冊，根據任務資訊向ResourceManager申請資源（Container）
一旦ApplicationMaster申請到資源（也就是Container）後，便與對應的NodeManager通信，要求它在獲得的Container中啟動CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend啟動後會向Client中的SparkContext注冊并申請Task
client中的SparkContext配置設定Task給CoarseGrainedExecutorBackend執行，CoarseGrainedExecutorBackend運作Task并向Driver彙報運作的狀态和進度，以讓Client随時掌握各個任務的運作狀态，進而可以在任務失敗時重新啟動任務
應用程式運作完成後，Client的SparkContext向ResourceManager申請登出并關閉自己.

RDD運作流程：

RDD在Spark中運作大概分為以下三步：

建立RDD對象
DAGScheduler子產品介入運算，計算RDD之間的依賴關系，RDD之間的依賴關系就形成了DAG
每一個Job被分為多個Stage。劃分Stage的一個主要依據是目前計算因子的輸入是否是确定的，如果是則将其分在同一個Stage，避免多個Stage之間的消息傳遞開銷

示例圖如下：

spark架構及原理

spark架構及原理

将這些術語串起來的運作層次圖如下：

運作過程如下圖

RDD運作流程：

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結