參見 http://www.cnblogs.com/tgzhu/p/5818374.html
Apache Spark是一個圍繞速度、易用性和複雜分析建構的大資料處理架構,最初在2009年由加州大學伯克利分校的AMPLab開發,并于2010年成為Apache的開源項目之一,與Hadoop和Storm等其他大資料和MapReduce技術相比,Spark有如下優勢:
- Spark提供了一個全面、統一的架構用于管理各種有着不同性質(文本資料、圖表資料等)的資料集和資料源(批量資料或實時的流資料)的大資料處理的需求
- 官方資料介紹Spark可以将Hadoop叢集中的應用在記憶體中的運作速度提升100倍,甚至能夠将應用在磁盤上的運作速度提升10倍
- 架構及生态
- spark 與 hadoop
- 運作流程及特點
- 常用術語
- standalone模式
- yarn叢集
- RDD運作流程

- Spark Core:包含Spark的基本功能;尤其是定義RDD的API、操作以及這兩者上的動作。其他Spark的庫都是建構在RDD和Spark Core之上的
- Spark SQL:提供通過Apache Hive的SQL變體Hive查詢語言(HiveQL)與Spark進行互動的API。每個資料庫表被當做一個RDD,Spark SQL查詢被轉換為Spark操作。
- Spark Streaming:對實時資料流進行處理和控制。Spark Streaming允許程式能夠像普通RDD一樣處理實時資料
- MLlib:一個常用機器學習算法庫,算法被實作為對RDD的Spark操作。這個庫包含可擴充的學習算法,比如分類、回歸等需要對大量資料集進行疊代的操作。
- GraphX:控制圖、并行圖操作和計算的一組算法和工具的集合。GraphX擴充了RDD API,包含控制圖、建立子圖、通路路徑上所有頂點的操作.
Spark架構的組成圖:
- Cluster Manager:在standalone模式中即為Master主節點,控制整個叢集,監控worker。在YARN模式中為資料總管
- Worker節點:從節點,負責控制計算節點,啟動Executor或者Driver。
- Driver: 運作Application 的main()函數
- Executor:執行器,是為某個Application運作在worker node上的一個程序
- 建構Spark Application的運作環境,啟動SparkContext
- SparkContext向資料總管(可以是Standalone,Mesos,Yarn)申請運作Executor資源,并啟動StandaloneExecutorbackend,
- Executor向SparkContext申請Task
- SparkContext将應用程式分發給Executor
- SparkContext建構成DAG圖,将DAG圖分解成Stage、将Taskset發送給Task Scheduler,最後由Task Scheduler将Task發送給Executor運作
- Task在Executor上運作,運作完釋放所有資源
- 每個Application擷取專屬的executor程序,該程序在Application期間一直駐留,并以多線程方式運作Task。這種Application隔離機制是有優勢的,無論是從排程角度看(每個Driver排程他自己的任務),還是從運作角度看(來自不同Application的Task運作在不同JVM中),當然這樣意味着Spark Application不能跨應用程式共享資料,除非将資料寫入外部存儲系統
- Spark與資料總管無關,隻要能夠擷取executor程序,并能保持互相通信就可以了
- 送出SparkContext的Client應該靠近Worker節點(運作Executor的節點),最好是在同一個Rack裡,因為Spark Application運作過程中SparkContext和Executor之間有大量的資訊交換
- Task采用了資料本地性和推測執行的優化機制
- Application: Appliction都是指使用者編寫的Spark應用程式,其中包括一個Driver功能的代碼和分布在叢集中多個節點上運作的Executor代碼
- Driver: Spark中的Driver即運作上述Application的main函數并建立SparkContext,建立SparkContext的目的是為了準備Spark應用程式的運作環境,在Spark中有SparkContext負責與ClusterManager通信,進行資源申請、任務的配置設定和監控等,當Executor部分運作完畢後,Driver同時負責将SparkContext關閉,通常用SparkContext代表Driver
- Executor: 某個Application運作在worker節點上的一個程序, 該程序負責運作某些Task, 并且負責将資料存到記憶體或磁盤上,每個Application都有各自獨立的一批Executor, 在Spark on Yarn模式下,其程序名稱為CoarseGrainedExecutor Backend。一個CoarseGrainedExecutor Backend有且僅有一個Executor對象, 負責将Task包裝成taskRunner,并從線程池中抽取一個空閑線程運作Task, 這個每一個oarseGrainedExecutor Backend能并行運作Task的數量取決與配置設定給它的cpu個數
- Cluter Manager: 指的是在叢集上擷取資源的外部服務。目前有三種類型
-
- Standalon : spark原生的資源管理,由Master負責資源的配置設定
- Apache Mesos:與hadoop MR相容性良好的一種資源排程架構
- Hadoop Yarn: 主要是指Yarn中的ResourceManager
- Worker: 叢集中任何可以運作Application代碼的節點,在Standalone模式中指的是通過slave檔案配置的Worker節點,在Spark on Yarn模式下就是NoteManager節點
- Task: 被送到某個Executor上的工作單元,但hadoopMR中的MapTask和ReduceTask概念一樣,是運作Application的基本機關,多個Task組成一個Stage,而Task的排程和管理等是由TaskScheduler負責
- Job: 包含多個Task組成的并行計算,往往由Spark Action觸發生成, 一個Application中往往會産生多個Job
- Stage: 每個Job會被拆分成多組Task, 作為一個TaskSet, 其名稱為Stage,Stage的劃分和排程是有DAGScheduler來負責的,Stage有非最終的Stage(Shuffle Map Stage)和最終的Stage(Result Stage)兩種,Stage的邊界就是發生shuffle的地方
- DAGScheduler: 根據Job建構基于Stage的DAG(Directed Acyclic Graph有向無環圖),并送出Stage給TASkScheduler。 其劃分Stage的依據是RDD之間的依賴的關系找出開銷最小的排程方法,如下圖
- TASKSedulter: 将TaskSET送出給worker運作,每個Executor運作什麼Task就是在此處配置設定的. TaskScheduler維護所有TaskSet,當Executor向Driver發生心跳時,TaskScheduler會根據資源剩餘情況配置設定相應的Task。另外TaskScheduler還維護着所有Task的運作标簽,重試失敗的Task。下圖展示了TaskScheduler的作用
- 在不同運作模式中任務排程器具體為:
- Spark on Standalone模式為TaskScheduler
- YARN-Client模式為YarnClientClusterScheduler
- YARN-Cluster模式為YarnClusterScheduler
将這些術語串起來的運作層次圖如下:
Job=多個stage,Stage=多個同種task, Task分為ShuffleMapTask和ResultTask,Dependency分為ShuffleDependency和NarrowDependency.
運作過程如下圖
- standalone: 獨立叢集運作模式
- SparkContext連接配接到Master,向Master注冊并申請資源(CPU Core 和Memory)
- Master根據SparkContext的資源申請要求和Worker心跳周期内報告的資訊決定在哪個Worker上配置設定資源,然後在該Worker上擷取資源,然後啟動StandaloneExecutorBackend;
- StandaloneExecutorBackend向SparkContext注冊;
- SparkContext将Applicaiton代碼發送給StandaloneExecutorBackend;并且SparkContext解析Applicaiton代碼,建構DAG圖,并送出給DAG Scheduler分解成Stage(當碰到Action操作時,就會催生Job;每個Job中含有1個或多個Stage,Stage一般在擷取外部資料和shuffle之前産生),然後以Stage(或者稱為TaskSet)送出給Task Scheduler,Task Scheduler負責将Task配置設定到相應的Worker,最後送出給StandaloneExecutorBackend執行;
- StandaloneExecutorBackend會建立Executor線程池,開始執行Task,并向SparkContext報告,直至Task完成
- 所有Task完成後,SparkContext向Master登出,釋放資源
- yarn
- Spark Yarn Client向YARN的ResourceManager申請啟動Application Master。同時在SparkContent初始化中将建立DAGScheduler和TASKScheduler等,由于我們選擇的是Yarn-Client模式,程式會選擇YarnClientClusterScheduler和YarnClientSchedulerBackend
- ResourceManager收到請求後,在叢集中選擇一個NodeManager,為該應用程式配置設定第一個Container,要求它在這個Container中啟動應用程式的ApplicationMaster,與YARN-Cluster差別的是在該ApplicationMaster不運作SparkContext,隻與SparkContext進行聯系進行資源的分派
- Client中的SparkContext初始化完畢後,與ApplicationMaster建立通訊,向ResourceManager注冊,根據任務資訊向ResourceManager申請資源(Container)
- 一旦ApplicationMaster申請到資源(也就是Container)後,便與對應的NodeManager通信,要求它在獲得的Container中啟動CoarseGrainedExecutorBackend,CoarseGrainedExecutorBackend啟動後會向Client中的SparkContext注冊并申請Task
- client中的SparkContext配置設定Task給CoarseGrainedExecutorBackend執行,CoarseGrainedExecutorBackend運作Task并向Driver彙報運作的狀态和進度,以讓Client随時掌握各個任務的運作狀态,進而可以在任務失敗時重新啟動任務
- 應用程式運作完成後,Client的SparkContext向ResourceManager申請登出并關閉自己.
RDD運作流程:
- RDD在Spark中運作大概分為以下三步:
- 建立RDD對象
- DAGScheduler子產品介入運算,計算RDD之間的依賴關系,RDD之間的依賴關系就形成了DAG
- 每一個Job被分為多個Stage。劃分Stage的一個主要依據是目前計算因子的輸入是否是确定的,如果是則将其分在同一個Stage,避免多個Stage之間的消息傳遞開銷
示例圖如下: