天天看點

《Spark大資料分析實戰》——3.5節本章小結

本節書摘來自華章社群《spark大資料分析實戰》一書中的第3章,第3.5節本章小結,作者高彥傑 倪亞宇,更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

3.5 本章小結

本章主要介紹了bdas中廣泛應用的幾個資料分析元件。sql on spark提供在spark上的sql查詢功能。讓使用者可以基于記憶體計算和sql進行大資料分析。通過spark streaming,使用者可以建構實時流處理應用,其高吞吐量,以及适合曆史和實時資料混合分析的特性使其在流資料處理架構中突出重圍。graphx充當spark生态系統中圖計算的角色,其簡潔的api讓圖處理算法的書寫更加便捷。最後介紹了mllib——spark上的機器學習庫,它充分利用spark記憶體計算和适合疊代的特性,使分布式系統與并行機器學習算法實作了完美的結合。相信随着spark生态系統的日臻完善,這些元件還會取得長足發展。

繼續閱讀