【大資料Spark系列】RDD概述

2023-05-27 15:29:21

文章目錄

- RDD概述
- - 1、RDD 的産生
  - 2、什麼是RDD
  - 3、RDD的屬性
  - 4、Spark做了啥？
  - 5、RDD彈性
  - 6、RDD特點

RDD概述

1、RDD 的産生

Hadoop的MapReduce是一種基于資料集的工作模式，面向資料，這種工作模式一般是從存儲上加載資料集，然後操作資料集，最後寫入實體儲存設備。資料更多面臨的是一次性處理。

MR的這種方式對資料領域兩種常見的操作不是很高效。第一種是疊代式的算法。比如機器學習中ALS、凸優化梯度下降等。這些都需要基于資料集或者資料集的衍生資料反複查詢反複操作。MR這種模式不太合适，即使多MR串行處理，性能和時間也是一個問題。資料的共享依賴于磁盤。另外一種是互動式資料挖掘，MR顯然不擅長。

MR和Spark中的疊代對比：

MR中的疊代

【大資料Spark系列】RDD概述

文章目錄

RDD概述

1、RDD 的産生

繼續閱讀

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

在python中建立excel并寫入

hdu7108哈希