Spark RDD概念學習系列之為什麼會引入RDD？（一）

2017-11-13 23:50:00

為什麼會引入RDD？

我們知道，無論是工業界還是學術界，都已經廣泛使用進階叢集程式設計模型來處理日益增長的資料，如MapReduce和Dryad。這些系統将分布式程式設計簡化為自動提供位置感覺性排程、容錯以及負載均衡，使得大量使用者能夠在商用叢集上分析超大資料集。大多數現有的叢集計算系統都是基于非循壞的資料流模型。即從穩定的實體存儲（如分布式檔案系統）中加載記錄，記錄被傳入由一組穩定性操作構成的DAG(Directed Acyclic Graph，有向無環圖)，然後寫回穩定存儲。DAG資料流圖能夠在運作時自動實作任務排程和故障恢複。

盡管非循環資料流是一種強大的抽象方法，但仍然有些應用無法使用這種方式描述。這類應用包括：

1）機器學習和圖應用中常用的疊代算法（每一步對資料執行相似的函數）；

2）互動式資料挖掘工具（使用者反複查詢一個資料子集）。

基于資料流的架構并不明确支援工作集，是以需要将資料輸出到磁盤，然後在每次查詢時重新加載，這會帶來較大的開銷。針對上述問題，Spark實作了一種分布式的記憶體抽象，稱為RDD(彈性分布式資料集)。

它支援基于工作集的應用，同時具有資料流模型的特點：自動容錯，位置感覺性排程和可伸縮性。RDD允許使用者在執行多個查詢時顯式地将工作集緩存在記憶體中，後續的查詢能夠重用于工作集，這極大地提升了查詢速度。

本文轉自大資料躺過的坑部落格園部落格，原文連結：http://www.cnblogs.com/zlslch/p/5717055.html，如需轉載請自行聯系原作者

Spark RDD概念學習系列之為什麼會引入RDD？（一）

繼續閱讀

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

nginx location中斜線的位置的重要性

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

hdu7108哈希