幹貨 | 如何成為大資料Spark高手

原創：浪尖

原文連結：
https://mp.weixin.qq.com/s/jHp-LcqdHSg2DbLhWIbSfg

Spark是發源于美國加州大學伯克利分校AMPLab的叢集計算平台，它立足于記憶體計算，性能超過Hadoop百倍，從多疊代批量處理出發，兼收并蓄資料倉庫、流處理和圖計算等多種計算範式，是罕見的全能選手。Spark采用一個統一的技術堆棧解決了雲計算大資料的如流處理、圖技術、機器學習、NoSQL查詢等方面的所有核心問題，具有完善的生态系統，這直接奠定了其一統雲計算大資料領域的霸主地位。

伴随Spark技術的普及推廣，對專業人才的需求日益增加。Spark專業人才在未來也是炙手可熱，輕而易舉可以拿到百萬的薪酬。而要想成為Spark高手，也需要一招一式，從内功練起：通常來講需要經曆以下階段：

第一階段：熟練的掌握Scala及java語言

Spark架構是采用Scala語言編寫的，精緻而優雅。要想成為Spark高手，你就必須閱讀Spark的源代碼，就必須掌握Scala,;
雖然說現在的Spark可以采用多語言Java、Python等進行應用程式開發，但是最快速的和支援最好的開發API依然并将永遠是Scala方式的API，是以你必須掌握Scala來編寫複雜的和高性能的Spark分布式程式;
尤其要熟練掌握Scala的trait、apply、函數式程式設計、泛型、逆變與協變等;
掌握JAVA語言多線程，netty，rpc，ClassLoader，運作環境等(源碼需要)。

第二階段：精通Spark平台本身提供給開發者API

掌握Spark中面向RDD的開發模式部署模式：本地(調試)，Standalone，yarn等，掌握各種transformation和action函數的使用;
掌握Spark中的寬依賴和窄依賴以及lineage機制;
掌握RDD的計算流程，例如Stage的劃分、Spark應用程式送出給叢集的基本過程和Worker節點基礎的工作原理等
熟練掌握spark on yarn的機制原理及調優

第三階段：深入Spark核心

此階段主要是通過Spark架構的源碼研讀來深入Spark核心部分：

通過源碼掌握Spark的任務送出過程;
通過源碼掌握Spark叢集的任務排程;
尤其要精通DAGScheduler、TaskScheduler，Driver和Executor節點内部的工作的每一步的細節;
Driver和Executor的運作環境及RPC過程
緩存RDD，Checkpoint，Shuffle等緩存或者暫存垃圾清除機制
熟練掌握BlockManager，Broadcast，Accumulator，緩存等機制原理
熟練掌握Shuffle原理源碼及調優

第四階級:掌握基于Spark Streaming

Spark作為雲計算大資料時代的集大成者，其中其元件spark Streaming在企業準實時處理也是基本是必備，是以作為大資料從業者熟練掌握也是必須且必要的：

Spark Streaming是非常出色的實時流處理架構，要掌握其DStream、transformation和checkpoint等;
熟練掌握kafka 與spark Streaming結合的兩種方式及調優方式
熟練掌握Structured Streaming原理及作用并且要掌握其餘kafka結合
熟練掌握SparkStreaming的源碼尤其是和kafka結合的兩種方式的源碼原理。
熟練掌握spark Streaming的web ui及各個名額，如：批次執行事件處理時間，排程延遲，待處理隊列并且會根據這些名額調優。
會自定義監控系統

第五階級:掌握基于Spark SQL

企業環境中也還是以資料倉庫居多，鑒于大家對實時性要求比較高，那麼spark sql就是我們作為倉庫分析引擎的最愛(浪尖負責的兩個叢集都是計算分析一spark sql為主)：

spark sql要了解Dataset的概念及與RDD的差別，各種算子
要了解基于hive生成的永久表和沒有hive的臨時表的差別
**spark sql+hive metastore基本是标配，無論是sql的支援，還是永久表特性

**
要掌握存儲格式及性能對比
Spark sql也要熟悉它的優化器catalyst的工作原理。
Spark Sql的dataset的鍊式計算原理，邏輯計劃翻譯成實體計劃的源碼(非必須，面試及企業中牽涉到sql源碼調優的比較少)

第六階級:掌握基于spark機器學習及圖計算

企業環境使用spark作為機器學習及深度學習分析引擎的情況也是日漸增多，結合方式就很多了：

java系：

spark ml/mllib spark自帶的機器學習庫，目前也逐漸有開源的深度學習及nlp等架構( spaCy, CoreNLP, OpenNLP, Mallet, GATE, Weka, UIMA, nltk, gensim, Negex, word2vec, GloVe)
與DeepLearning4j目前用的也比較多的一種形式

python系：

pyspark
spark與TensorFlow結合

第七階級:掌握spark相關生态邊緣

企業中使用spark肯定也會涉及到spark的邊緣生态，這裡我們舉幾個常用的軟體架構：

hadoop系列：kafka，hdfs，yarn
輸入源及結果輸出，主要是：mysql/redis/hbase/mongod
記憶體加速的架構redis，Alluxio
es、solr

第八階級:做商業級别的Spark項目

通過一個完整的具有代表性的Spark項目來貫穿Spark的方方面面，包括項目的架構設計、用到的技術的剖析、開發實作、運維等，完整掌握其中的每一個階段和細節，這樣就可以讓您以後可以從容面對絕大多數Spark項目。

第九階級：提供Spark解決方案

徹底掌握Spark架構源碼的每一個細節;
根據不同的業務場景的需要提供Spark在不同場景的下的解決方案;
根據實際需要，在Spark架構基礎上進行二次開發，打造自己的Spark架構;

這就是浪尖總結的我們學好spark的主要步驟；想學好，着重留意深色字型的。堅持總是空難，但是堅持下來就會有質的飛躍。

幹貨 | 如何成為大資料Spark高手

第一階段：熟練的掌握Scala及java語言

第二階段：精通Spark平台本身提供給開發者API

第三階段：深入Spark核心

第四階級:掌握基于Spark Streaming

第五階級:掌握基于Spark SQL

第六階級:掌握基于spark機器學習及圖計算

第七階級:掌握spark相關生态邊緣

第八階級:做商業級别的Spark項目

第九階級：提供Spark解決方案

繼續閱讀

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

sqlServer根據經緯查距離

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method