<b>2.4 spark基本架構</b>
從叢集部署的角度來看,spark叢集由以下部分組成:
cluster manager:spark的叢集管理器,主要負責資源的配置設定與管理。叢集管理器配置設定的資源屬于一級配置設定,它将各個worker上的記憶體、cpu等資源配置設定給應用程式,但是并不負責對executor的資源配置設定。目前,standalone、yarn、mesos、ec2等都可以作為spark的叢集管理器。
worker:spark的工作節點。對spark應用程式來說,由叢集管理器配置設定得到資源的worker節點主要負責以下工作:建立executor,将資源和任務進一步配置設定給executor,同步資源資訊給cluster manager。
executor:執行計算任務的一線程序。主要負責任務的執行以及與worker、driver app的資訊同步。
driver app:用戶端驅動程式,也可以了解為用戶端應用程式,用于将任務程式轉換為rdd和dag,并與cluster manager進行通信與排程。
這些組成部分之間的整體關系如圖2-7所示。