《Spark與Hadoop大資料分析》——2.5　小結

2021-11-10 14:11:33

Apache Hadoop 提供了一個用于大資料存儲的可靠且可擴充的架構（HDFS），以及一個用于運作和管理多個大資料應用程式的強大叢集資源管理架構（YARN）。Apache Spark 提供了大資料處理的記憶體級性能，以及用于互動式探索性分析、實時分析、機器學習和圖分析的庫和 API。雖然 MR 是 Hadoop 上的主要處理引擎，但它有很多缺點，例如性能較差和設計應用程式時不夠靈活。Apache Spark 是 MR 的替代品。所有基于 MR 的工具（如 Hive、Pig、Mahout 和 Crunch 等）已經開始把 Apache Spark 作為除 MR 之外的附加執行引擎。

如今，大資料項目正在許多企業中實施，從大的财富 500 強公司到小型初創企業。如果組織能通過易于使用的工具來開發應用和探索資料，從原始資料快速導向決策，那麼他們就可以獲得優勢。Apache Spark 将把這種速度和精巧帶給 Hadoop 叢集。

在下一章，我們要深入探讨并學習 Spark。

《Spark與Hadoop大資料分析》——2.5　小結

繼續閱讀

Apache配置檔案中的deny和allow的使用

Apache 配置預設編碼

伺服器配置——Apache

Apache靜态檔案通路配置（書封伺服器）

apache httpd 配置

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

淺談企業活動中進行資料分析的重要性

Apache配置SSLApache配置SSL

Windows下配置Apache的SSL服務

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

《Spark與Hadoop大資料分析》——2.5 小結

繼續閱讀

《Spark與Hadoop大資料分析》——2.5　小結