Spark快速入門(72集視訊+源碼+筆記)
1、什麼是Spark?
Apache Spark是專為大規模資料處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行架構,Spark,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是——Job中間輸出結果可以儲存在記憶體中,進而不再需要讀寫HDFS,是以Spark能更好地适用于資料挖掘與機器學習等需要疊代的MapReduce的算法。
2、Spark具有哪些優點?
(1)進階 API 剝離了對叢集本身的關注,Spark 應用開發者可以專注于應用所要做的計算本身。
(2)Spark 很快,支援互動式計算和複雜算法。
(3)Spark 是一個通用引擎,可用它來完成各種各樣的運算,包括 SQL 查詢、文本處理、機器學習等,而在 Spark 出現之前,我們一般需要學習各種各樣的引擎來分别處理這些需求。
3、Spark計算方法
(1)Bagel: Pregel on Spark,可以用Spark進行圖計算,這是個非常有用的小項目。Bagel自帶了一個例子,實作了Google的PageRank算法。
(2)當下Spark已不止步于實時計算,目标直指通用大資料處理平台,而終止Spark,開啟SparkSQL或許已經初見端倪。
(3)近年來國内外開始關注在 Spark 平台上如何實作各種機器學習和資料挖掘并行化算法設計。為了友善一般應用領域的資料分析人員使用所熟悉的 R 語言在 Spark 平台上完成資料分析,Spark 提供了一個稱為 SparkR 的程式設計接口,使得一般應用領域的資料分析人員可以在 R 語言的環境裡友善地使用 Spark 的并行化程式設計接口和強大計算能力。
4、2019好程式員大資料教程-如何快速入門Spark?(72集視訊+源碼+筆記)
(1)本課适用人群:
具有一定大資料基礎的人群
(2)學完本視訊能掌握什麼?
本節課能夠掌握Spark的環境搭建,任務排程流程,以及RDD代碼的應用。
(3)課程目錄:
第1章 Spark知識講解
01_為什麼學習Spark
02_Spark和MapReduce的對比
03_Spark架構體系
04_Spark下載下傳
05.Spark運作模式介紹
06.Spark叢集安裝
07.Spark程式執行流程
08.Spark相關名詞解釋
09_SparkShellLocal
10_SparkShellCluster
11_Spark2.2和Spark1.6Shell對比
第2章 Maven和IDEA
12_Maven和IDEA下載下傳
13_Maven安裝
14_IDEA安裝
15_IDEA中配置Maven
16_Scala環境安裝和IDEA中配置Scala插件
17_IDEA建立Spark工程
18_Spark開發WordCount程式
19_Spark程式打包
20_Spark叢集運作打包程式
第3章 RDD知識講解
21_RDD概念
22_RDD執行流程
23_RDD屬性
24_RDD彈性
25_RDD的兩種建立
26_RDD程式設計API
第4章 Transformation算法
27_Transformation算法
28_Action算法
29_Map
30_filter
31_flatMap
32_sample
33 union
34 intersection
35 distinct
36 join
37_leftOuterJoin
38_rightOuterJoin
39_cartesian
40_groupBy
41_mapPartition
42_mapPartitionWithIndex
43_sortby
44_sortbykey
45_repartition
46_coalesce
47_partitionBy
48_repartitionAndSortWithinPartitions
49_reduce
50_reduceByKey
51_aggregateByKey
52_combineByKey
第5章 Action算法
53_collect
54_count
55_top
56_take
57_takeOrdered
58_first
59_saveAsTextFile
60_foreach
61_其他算子之countByKey
62_其他算子之countByValue
63_其他算子之filterByRange
64_其他算子之flatMapValues
65_其他算子之foreachPartition
66_其他算子之keyBy
67_其他算子之keys和values
68_其他算子之collectAsMap
69_RDD函數傳遞
70_RDD的依賴關系
71_RDD任務劃分
72_Lineage血統