天天看點

Spark快速入門(72集視訊+源碼+筆記)

Spark快速入門(72集視訊+源碼+筆記)

1、什麼是Spark?

Apache Spark是專為大規模資料處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行架構,Spark,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是——Job中間輸出結果可以儲存在記憶體中,進而不再需要讀寫HDFS,是以Spark能更好地适用于資料挖掘與機器學習等需要疊代的MapReduce的算法。

2、Spark具有哪些優點?

(1)進階 API 剝離了對叢集本身的關注,Spark 應用開發者可以專注于應用所要做的計算本身。

(2)Spark 很快,支援互動式計算和複雜算法。

(3)Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等,而在 Spark 出現之前,我們一般需要學習各種各樣的引擎來分别處理這些需求。

3、Spark計算方法

(1)Bagel: Pregel on Spark,可以用Spark進行圖計算,這是個非常有用的小項目。Bagel自帶了一個例子,實作了Google的PageRank算法。

(2)當下Spark已不止步于實時計算,目标直指通用大資料處理平台,而終止Spark,開啟SparkSQL或許已經初見端倪。

(3)近年來國内外開始關注在 Spark 平台上如何實作各種機器學習和資料挖掘并行化算法設計。為了友善一般應用領域的資料分析人員使用所熟悉的 R 語言在 Spark 平台上完成資料分析,Spark 提供了一個稱為 SparkR 的程式設計接口,使得一般應用領域的資料分析人員可以在 R 語言的環境裡友善地使用 Spark 的并行化程式設計接口和強大計算能力。

4、2019好程式員大資料教程-如何快速入門Spark?(72集視訊+源碼+筆記)

(1)本課适用人群:

具有一定大資料基礎的人群

(2)學完本視訊能掌握什麼?

本節課能夠掌握Spark的環境搭建,任務排程流程,以及RDD代碼的應用。

(3)課程目錄:

第1章 Spark知識講解

01_為什麼學習Spark

02_Spark和MapReduce的對比

03_Spark架構體系

04_Spark下載下傳

05.Spark運作模式介紹

06.Spark叢集安裝

07.Spark程式執行流程

08.Spark相關名詞解釋

09_SparkShellLocal

10_SparkShellCluster

11_Spark2.2和Spark1.6Shell對比

第2章 Maven和IDEA

12_Maven和IDEA下載下傳

13_Maven安裝

14_IDEA安裝

15_IDEA中配置Maven

16_Scala環境安裝和IDEA中配置Scala插件

17_IDEA建立Spark工程

18_Spark開發WordCount程式

19_Spark程式打包

20_Spark叢集運作打包程式

第3章 RDD知識講解

21_RDD概念

22_RDD執行流程

23_RDD屬性

24_RDD彈性

25_RDD的兩種建立

26_RDD程式設計API

第4章 Transformation算法

27_Transformation算法

28_Action算法

29_Map

30_filter

31_flatMap

32_sample

33 union

34 intersection

35 distinct

36 join

37_leftOuterJoin

38_rightOuterJoin

39_cartesian

40_groupBy

41_mapPartition

42_mapPartitionWithIndex

43_sortby

44_sortbykey

45_repartition

46_coalesce

47_partitionBy

48_repartitionAndSortWithinPartitions

49_reduce

50_reduceByKey

51_aggregateByKey

52_combineByKey

第5章 Action算法

53_collect

54_count

55_top

56_take

57_takeOrdered

58_first

59_saveAsTextFile

60_foreach

61_其他算子之countByKey

62_其他算子之countByValue

63_其他算子之filterByRange

64_其他算子之flatMapValues

65_其他算子之foreachPartition

66_其他算子之keyBy

67_其他算子之keys和values

68_其他算子之collectAsMap

69_RDD函數傳遞

70_RDD的依賴關系

71_RDD任務劃分

72_Lineage血統

繼續閱讀