天天看點

spark關鍵版本簡要梳理

好久沒有看spark了,發現spark都開始發力AI了。簡單梳理下spark的發展脈絡如下:

1)spark 0.x 主要對标MapReduce,用記憶體計算的能力替換MapReduce依賴磁盤,最主要的概念就是RDD。

2)spark 1.x 最主要解決是易用性問題,用SparkSQL統一了程式設計語言。替代了Hive SQL等,另外提供了一系列進階接口,極大的降低了程式設計難易度。并推出Tungsten項目,通過編譯優化的方法提高性能。

3)spark 2.0 主要對标flink,統一了批處理和流處理接口,批處理和流處理融合處理,推出結構化流處理接口struct streaming。

4)spark 2.4 開始提供圖像分類的能力,見部落格:https://blogs.technet.microsoft.com/machinelearning/2018/03/05/image-data-support-in-apache-spark/

故事還在繼續,可以看到spark社群一直在技術的前沿陣地,從不是探路者,但是總是能抓住關鍵問題,以一種更優雅的方式去替換和取代。