Spark 資源和資料并行度優化分析3

2021-12-10 23:50:00

開發者學堂課程【大資料實時計算架構 Spark 快速入門：Spark資源和資料并行度優化分析3】學習筆記，與課程緊密聯系，讓使用者快速學習知識。

課程位址：

https://developer.aliyun.com/learning/course/100/detail/1686

内容簡介：

一、FlatMap 算子

二、Collect 算子

public static void main(String[] args) {

SparkConfconf = new SparkConf().setAppName("FlatMapOperator").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

List linelist = Arrays.aslist("hello xuruyun","hello xuruyun","hello JavaRDD lines=sc.parallelize(lineList);

// flatMap = flat+ map

JavaRDD words = lines.flatMap(new FlatMapFunction(){private static final long serialVersionUID = 1L;

@Override

public Iterable call(String line) throws Exception {

returnArrays.aslist(line.split(""));

}};

words. foreach(new VoidFunction(){private static final long serialVersionUID = 1L;

@Override

public void call(String result) throws Exception {

public class Collectoperator {

publicstatic void main(String[] args) {

SparkConfconf = new SparkConf().setAppName("ReduceOperator").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

//有一個集合，裡面有1到10,10個數字，現在我們通過 reduce 來進行累加

List numberList = Arrays. asList(1, 2, 3, 4, 5);

JavaRDD numbers = sc.parallelize(numberList);

JavaRDD doubleNumbers = numbers. map(new Function

@Override

public Integer call(Integer v) throws Exception {

returnv* 2;

});

// 用 foreach action 操作， collect 在遠端叢集上周遊 RDD 的元素// 用collect 操作，将分布式的在遠端叢集裡面的資料拉取到本地！!!//這種方式不建議使用，如果資料量大，走大量的網絡傳輸//甚至有可能 OOM 記憶體溢出，通常情況下你會看到用 foreach 操作 List doubleNumberList = doubleNumbers.

collect();for(Integer num: doubleNumberList){

System.out.println(num);

sc.close();

Spark 資源和資料并行度優化分析3 | 學習筆記

Spark 資源和資料并行度優化分析3

繼續閱讀

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark