天天看點

《Spark與Hadoop大資料分析》——2.5 小結

Apache Hadoop 提供了一個用于大資料存儲的可靠且可擴充的架構(HDFS),以及一個用于運作和管理多個大資料應用程式的強大叢集資源管理架構(YARN)。Apache Spark 提供了大資料處理的記憶體級性能,以及用于互動式探索性分析、實時分析、機器學習和圖分析的庫和 API。雖然 MR 是 Hadoop 上的主要處理引擎,但它有很多缺點,例如性能較差和設計應用程式時不夠靈活。Apache Spark 是 MR 的替代品。所有基于 MR 的工具(如 Hive、Pig、Mahout 和 Crunch 等)已經開始把 Apache Spark 作為除 MR 之外的附加執行引擎。

如今,大資料項目正在許多企業中實施,從大的财富 500 強公司到小型初創企業。如果組織能通過易于使用的工具來開發應用和探索資料,從原始資料快速導向決策,那麼他們就可以獲得優勢。Apache Spark 将把這種速度和精巧帶給 Hadoop 叢集。

在下一章,我們要深入探讨并學習 Spark。