天天看點

《Spark大資料分析實戰》——第3章BDAS簡介

本節書摘來自華章社群《spark大資料分析實戰》一書中的第3章bdas簡介,作者高彥傑 倪亞宇,更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

第3章

bdas簡介

提到spark不得不說伯克利大學amplab開發的bdas(berkeley data analytics stack)資料分析的軟體棧,如圖3-1所示是其中的spark生态系統。其中用記憶體分布式大資料計算引擎spark替代原有的mapreduce,上層通過spark sql替代hive等sql on hadoop系統,spark streaming替換storm等流式計算架構,graphx替換graphlab等大規模圖計算架構,mllib替換mahout等機器學習架構等,其整體架構基于記憶體計算解決了原來hadoop的性能瓶頸問題。amplab提出one framework to rule them all的理念,使用者可以利用spark一站式建構自己的資料分析流水線。

在一些資料分析應用中,使用者可以使用spark sql預處理結構化資料,graphx預處理圖資料,spark streaming實時捕獲和處理流資料,最終通過mllib将資料融合,進行模型訓練,底層各個系統通過spark進行運算。

下面将介紹其中主要的項目。