天天看點

《Spark與Hadoop大資料分析》一一第1章 從宏觀視角看大資料分析

本節書摘來自華章計算機《spark與hadoop大資料分析》一書中的第1章,第1.1節,作者:文卡特·安卡姆(venkat ankam) 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

本書的目标是讓你熟悉 apache spark用到的工具和技術,重點介紹hadoop平台上使用的hadoop部署和工具。大多數spark的生産環境會采用hadoop叢集,使用者在內建 spark和hadoop配套的各種工具時會遇到很多挑戰。本書将講解hadoop分布式檔案系統(hadoop distributed file system,hdfs)和另一種資源協商器(yet another resource negotiator,yarn)面臨的內建挑戰,以及spark和hadoop使用的各種工具。本書還會讨論所有spark元件—spark core、spark sql、dataframe、dataset、spark streaming、structured streaming、mllib、graphx 和 sparkr,以及它與分析元件(如jupyter、zeppelin、hive、hbase)及資料流工具(例如 nifi)的內建。此外,本書還會通過使用mllib的一個實時推薦系統示例來幫助我們了解資料科學技術。

在本章,我們會從比較宏觀的角度來介紹大資料分析,并嘗試了解在 apache hadoop 和 apache spark 平台上使用的工具和技術。

大資料分析是分析大資料的過程,它可以提取過去、目前和未來的統計資料,以及用于改進業務決策的内在規律性。

大資料分析大緻可分為兩大類:資料分析和資料科學,它們是互相關聯的學科。本章會解釋資料分析與資料科學之間的差異。資料分析和資料科學在目前行業裡的定義會随着它們的應用案例的不同而不同,但讓我們嘗試了解它們分别能夠完成什麼工作。

資料分析側重于資料的收集和解釋,通常側重于過去和現在的統計。而另一方面,資料科學通過進行探索性分析,可以根據過去和現在的資料所識别的模型來産生推薦,重點關注于未來。

圖1-1解釋了資料分析和資料科學在時間和實作的價值方面的差異。圖中還顯示了它們解決的典型問題和使用的工具及技術。資料分析主要有兩種類型的分析:描述性分析和診斷性分析。資料科學也有兩種類型的分析:預測性分析和規範性分析。資料科學和資料分析的具體情況如圖1-1所示。

《Spark與Hadoop大資料分析》一一第1章 從宏觀視角看大資料分析

圖1-1 資料分析與資料科學

兩者之間在過程、工具、技術、技能和輸出方面的差異見下表:

《Spark與Hadoop大資料分析》一一第1章 從宏觀視角看大資料分析

本章要讨論的主題如下:

大資料分析以及hadoop和spark在其中承擔的角色

大資料科學以及hadoop和spark在其中承擔的角色

相關的工具和技術

真實環境下的用例.