spark基本概念（便于自己随時查閱--摘自Spark快速大資料分析）

2018-05-07 23:50:00

我的原創位址：

https://dongkelun.com/2018/01/23/sparkBasicConcept/

1、 RDD

在Spark 中，我們通過對分布式資料集的操作來表達我們的計算意圖，這些計算會自動地在叢集上并行進行。這樣的資料集被稱為彈性分布式資料集（resilient distributed dataset），簡稱RDD。RDD 是Spark 對分布式資料和計算的基本抽象。

RDD 支援兩種操作：轉化操作和行動操作。RDD 的轉化操作是傳回一個新的RDD 的操作，比如map() 和filter()，而行動操作則是向驅動器程式傳回結果或把結果寫入外部系統的操作，會觸發實際的計算，比如count() 和first()。Spark 對待轉化操作和行動操作的方式很不一樣，是以了解你正在進行的操作的類型是很重要的。如果對于一個特定的函數是屬于轉化操作還是行動操作感到困惑，你可以看看它的傳回值類型：轉化操作傳回的是RDD，而行動操作傳回的是其他的資料類型。

2、惰性求值

Spark 使用惰性求值，這樣就可以把一些操作合并到一起來減少計算資料的步驟。在類似Hadoop MapReduce 的系統中，開發者常常花費大量時間考慮如何把操作組合到一起，以減少MapReduce 的周期數。而在Spark 中，寫出一個非常複雜的映射并不見得能比使用很多簡單的連續操作獲得好很多的性能。是以，使用者可以用更小的操作來組織他們的程式，這樣也使這些操作更容易管理。

spark基本概念（便于自己随時查閱--摘自Spark快速大資料分析）

1、 RDD

2、惰性求值

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

spark基本概念（便于自己随時查閱--摘自Spark快速大資料分析）

1、 RDD

2、 惰性求值

繼續閱讀

2、惰性求值