Spark主要特點

2023-04-24 17:47:07

1.Spark的主要特點

1.1 速度快

Spark 使用DAG 排程器、查詢優化器和實體執行引擎，能夠在批處理和流資料獲得很高的性能。根據官方的統計，它的運算速度是hadoop的100x倍，應該是有一定的條件吧！

Spark主要特點

1.2 使用簡單

Spark的易用性主要展現在兩個方面。一方面，我們可以用較多的程式設計語言來寫我們的應用程式，比如說Java,Scala,Python,R 和 SQL;另一方面，Spark 為我們提供了超過80個高階操作，這使得我們十分容易地建立并行應用，除此之外，我們也可以使用Scala,Python,R和SQL shells,以實作對Spark的互動。

df = spark.read.json("logs.json") df.where("age > 21")   .select("name.first").show()
**Spark's Python DataFrame API
Read JSON files with automatic schema inference**

1.3 通用性強

與其說通用性高，還不如說它內建度高，如圖所示：以Spark為基礎建立起來的子產品(庫)有Spark SQL,Spark Streaming,MLlib(machine learning)和GraphX(graph)。我們可以很容易地在同一個應用中将這些庫結合起來使用，以滿足我們的實際需求。

Spark主要特點

1.4 到處運作

Spark應用程度可以運作十分多的架構之上。它可以運作在Hadoop,Mesos,Kubernetes,standalone,或者雲伺服器上。它有多種多種通路源資料的方式。可以用standalone cluster模式來運作Spark應用程式，并且其應用程式跑在Hadoop,EC2,YARN,Mesos,或者Kubernates。對于通路的資料源，我們可以通過使用Spark通路HDFS,Alluxio,Apache Cassandra,HBase,Hive等多種資料源。

Spark主要特點

2.Spark主要包含的子產品

2.1 Spark Core

2.2 Spark SQL

2.3 Spark Streaming

2.4 Spark ML

Spark主要特點

繼續閱讀

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

IO端口和IO記憶體的差別轉Linux系統對IO端口和IO記憶體的管理

【算法提高班】貪婪政策

比較低功率無線技術(第3部分)---凱利訊半導體

MFC類

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

Java Spring 架構

多線程擷取随機數性能對比（C vs C++）

實訓成果

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結