天天看點

Spark 算子操作及總結_1

開發者學堂課程【大資料實時計算架構 Spark 快速入門:Spark 算子操作及總結_1】學習筆記,與課程緊密聯系,讓使用者快速學習知識。

課程位址:

https://developer.aliyun.com/learning/course/100/detail/1691

Spark 算子操作及總結_1

内容簡介:

一、TakeOperator

二、TakeSampleOperator

三、UnionOperator

四、JoinOperator

五、DistinctOperator

六、SortByKey Operator

七、SaveAsTextFileOperator

八、IntersectionOperator

九、CartesianOperator

傳回一個包含資料集前 n 個元素的數組(從0下标到n-1下标的元素),不排序。

對于一個資料集進行随機抽樣,傳回一個包含 num 個随機抽樣元素的數組,withReplacement 表示是否有放回抽樣,參數 seed 指定生成随機數的種子。

該方法僅在預期結果數組很小的情況下使用,因為所有資料都被加載到 driver 端的記憶體中。

對于源資料集和其他資料集求并集,不去重。

加入一個 RDD,在一個(k, v)和(k, w)類型的 dataSet_ 上調用,傳回一個(k,(v, w) )的 pairdataSeto。

傳回一個在源資料集去重之後的新資料集,即去重,并局部無序而整體有序傳回。

注:之後 groupByKey、reduceByKey、aggregateByKey、sortByKey、 join、 cogroup 等 Transformation 操作均包含 [numTasks] 任務數這個參數,參考上一行連結了解。

六、SortByKeyOperator

同樣是基于 pairRDD 的,根據 key 值來進行排序。ascending 升序,預設為 true,即升序; numTasks

将 dataSet 中元素以文本檔案的形式寫入本地檔案系統或者 HDFS 等。Spark 将 對每個元素調用 toString 方法,将資料元素轉換為文本檔案中的一行記錄。若将檔案儲存到本地檔案系統,那麼隻會儲存在 executor 所在機器的本地目錄。

繼續閱讀