《Spark與Hadoop大資料分析》——3.7　小結

2021-11-10 14:22:25

RDD 是 Spark 中基本的資料單元，Spark 程式設計就是圍繞建立和執行 RDD 上的操作（如變換和動作）進行的。Apache Spark 程式可以在 shell 中互動式執行或通過送出應用程式來執行。它的并行度是由 RDD 中的分區數量決定的。而分區的數量則由 HDFS 檔案中的區塊數或資料總管的類型以及用于非 HDFS 檔案的配置屬性決定。

在記憶體中緩存 RDD 對于在同一 RDD 上執行多個動作是有用的，因為它提供了更高的性能。當使用 MEMORY_ONLY選項緩存 RDD 時，沒有放入記憶體中的分區将在需要時重新計算。如果重新計算的開銷比較大，最好還是選擇 MEMORY_AND_DISK 作為持久化的級别。

Spark 的應用程式可以在用戶端或叢集模式下送出。用戶端模式用于開發和測試，而叢集模式用于生産部署。Spark 有三種不同的資料總管可供選擇：Standalone、Yarn 和 Mesos。對叢集資料總管的選擇取決于資源共享和預期性能的級别。在所有情況下，Spark 預設的 Standalone 資料總管都會提供更高的性能，因為它的排程成本低。

下一章将使用 Spark SQL、DataFrame和 Dataset來介紹大資料分析。

《Spark與Hadoop大資料分析》——3.7　小結

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

《Spark與Hadoop大資料分析》——3.7 小結

繼續閱讀

《Spark與Hadoop大資料分析》——3.7　小結