Spark 簡介

2017-11-11 23:50:00

==> 什麼是 Spark

---> Spark 是一個針對大規模資料處理的快速通用引擎

---> Spark 是 MapReduce 的替代方案，而且相容 HDFS, Hive, 可容入Hadoop 的生态系統，彌補 MapReduce 的不足

---> RDD 可簡單了解為：一個提供了很多操作接口的資料集合，分布式存儲于叢集環境中的儲存設備中（記憶體或硬碟），其中包括容錯，并行處理等功能

==> Spark 特點

---> 快

---- 優點：與Mapreduce 相比，Spark 基于記憶體運算，運算速度要快100倍，基于硬碟計算，運算速度要快 10 倍

---- 缺點：沒有對記憶體進行管理，把所有的記憶體管理都交給應用程式，以彌補MapReduce的不足，

容易出現 OOM（out of memory）, 可使用 Java Heap Dump 工具分析 Java 程式的記憶體溢出

---> 易用

---- Spark 支援 Java ，Python, Scala 的 API

---- 支援80多種算法

---- 支援互動式，可以在shell 中使用Spark 驗證解決問題的方法

---> 通用（生态圈）

---- 批處理

---- 互動式查詢（Spark SQL）

---- 實時流處理（Spark Streaming）

---- 機器學習 ( Spark MLlib )

---- 圖計算 ( GraphX )

---- 與 Hadoop 很好的融合，可以直接操作 HDFS, 并提供 Hive on Spark, Pig on Spark的架構內建 Hadoop（配置Hive on Spark 還不成熟）

---> 相容性可以非常友善的與其它開源産品進行融合

---- 可以使用 Hadoop 的 YARN 和 Apache Mesos 作為它的資源管理排程器

---- 可以處理所有 Hadoop 支援的資料：HDFS， HBase， Cassandra 等

---- 不需要做任何的資料遷移就可以使用 Spark 的強大處理能力

---- 可以不依賴第三方的資源管理和排程器，實作 Standalone 作為它的内置的資源管理和調試架構，降低部署的複雜性

---- 提供了在 EC2 上部署 Standalone 的Spark 叢集工具

==> Spark 生太圈

---> Spark Core

---> Spark SQL

---> Spark Streaming

---> Spark MLLib: 機器學習

---> Spark GraphX: 圖計算

本文轉自菜鳥的征程 51CTO部落格，原文連結:http://blog.51cto.com/songqinglong/2072605

Spark 簡介

繼續閱讀

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

neo4j之cypher使用文檔

Cloud Studio初體驗

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

sqlServer根據經緯查距離

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入