Spark 算子操作及總結_1

2021-12-18 23:50:00

開發者學堂課程【大資料實時計算架構 Spark 快速入門：Spark 算子操作及總結_1】學習筆記，與課程緊密聯系，讓使用者快速學習知識。

課程位址：

内容簡介：

一、TakeOperator

二、TakeSampleOperator

三、UnionOperator

四、JoinOperator

五、DistinctOperator

六、SortByKey Operator

七、SaveAsTextFileOperator

八、IntersectionOperator

九、CartesianOperator

傳回一個包含資料集前 n 個元素的數組(從0下标到n-1下标的元素)，不排序。

對于一個資料集進行随機抽樣，傳回一個包含 num 個随機抽樣元素的數組，withReplacement 表示是否有放回抽樣，參數 seed 指定生成随機數的種子。

該方法僅在預期結果數組很小的情況下使用，因為所有資料都被加載到 driver 端的記憶體中。

對于源資料集和其他資料集求并集，不去重。

加入一個 RDD，在一個(k, v)和(k， w)類型的 dataSet_ 上調用，傳回一個(k，(v, w) )的 pairdataSeto。

傳回一個在源資料集去重之後的新資料集，即去重，并局部無序而整體有序傳回。

注:之後 groupByKey、reduceByKey、aggregateByKey、sortByKey、 join、 cogroup 等 Transformation 操作均包含 [numTasks] 任務數這個參數，參考上一行連結了解。

同樣是基于 pairRDD 的，根據 key 值來進行排序。ascending 升序，預設為 true，即升序; numTasks

将 dataSet 中元素以文本檔案的形式寫入本地檔案系統或者 HDFS 等。Spark 将對每個元素調用 toString 方法，将資料元素轉換為文本檔案中的一行記錄。若将檔案儲存到本地檔案系統，那麼隻會儲存在 executor 所在機器的本地目錄。

繼續閱讀