《Spark大資料分析實戰》——3.5節本章小結

2021-11-08 13:29:41

本節書摘來自華章社群《spark大資料分析實戰》一書中的第3章，第3.5節本章小結，作者高彥傑　倪亞宇，更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

3.5　本章小結

本章主要介紹了bdas中廣泛應用的幾個資料分析元件。sql on spark提供在spark上的sql查詢功能。讓使用者可以基于記憶體計算和sql進行大資料分析。通過spark streaming，使用者可以建構實時流處理應用，其高吞吐量，以及适合曆史和實時資料混合分析的特性使其在流資料處理架構中突出重圍。graphx充當spark生态系統中圖計算的角色，其簡潔的api讓圖處理算法的書寫更加便捷。最後介紹了mllib——spark上的機器學習庫，它充分利用spark記憶體計算和适合疊代的特性，使分布式系統與并行機器學習算法實作了完美的結合。相信随着spark生态系統的日臻完善，這些元件還會取得長足發展。

sql 分布式計算算法 spark spa分析實戰 spa分析資料 spa實戰資料分析實戰 spa資料

上一篇: 《VMware vSphere設計（原書第2版）》——1.5　小結

下一篇: 《編寫高品質代碼：改善c程式代碼的125個建議》——建議17-3：避免在if/else語句後面添加分号“；”

《Spark大資料分析實戰》——3.5節本章小結

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

關于SQL語言

SQL語言基礎：常用的資料查詢語句

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

sqlServer根據經緯查距離

hdu7108哈希