SparkRDD之coalesce和repartition

2023-07-03 04:52:52

def coalesce ( numPartitions : Int , shuffle : Boolean = false ): RDD [T]

def repartition ( numPartitions : Int ): RDD [T]

coalesce和repartition将關聯資料合并到給定數量的分區中。 repartition對資料進行shuffle

java代碼如下：

package com.cb.spark.sparkrdd;

import java.util.Arrays;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;

public class CoalesceExample {
	public static void main(String[] args) {
		SparkConf conf = new SparkConf().setAppName("Coalesce").setMaster("local");
		JavaSparkContext jsc = new JavaSparkContext(conf);
		JavaRDD<Integer> rdd = jsc.parallelize(Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10), 10);
		System.out.println(rdd.partitions().size());// 10
		JavaRDD<Integer> coalesceRDD = rdd.coalesce(2, false);// 将原來十個partition的資料合并到兩個partition當中
		System.out.println(coalesceRDD.partitions().size());// 2

		JavaRDD<Integer> repartitionRDD = rdd.repartition(5);
		System.out.println(repartitionRDD.partitions().size());// 5
		jsc.stop();
	}
}

SparkRDD之coalesce和repartition

繼續閱讀

如何開始學習大資料

kafka單機版環境搭建

centos7 無法聯網可能的解決方案-vmware14 centos7 無法聯網，ping 百度www.baidu.com 不通，無線圖示消失，network中的wired不見了1.Centos 右上角網絡連接配接标志消失的解決辦法

Hadoop 源碼編譯 Centos 7 + hadoop-2.7.2 + jdk 8u144

Flume負載均衡串聯

HDFS 資料讀寫流程

Spark RDD求TOPN

#程式員#代碼#接單#程式設計語言#效率精通各項資料庫postgresqloraclemysqlhivehbasespark

Hive CLI和Beeline的差別-Hive vs BeelineHive CLI和Beeline的差別-Hive vs Beeline

hive中用nvl判斷timestamp類型的資料

【大資料技術】從單體到Flink：一文讀懂資料架構的演變

Kettle連接配接Clickhouse 自定義插件遇到的問題：注意：

我現在才知道，原來女孩子學大資料更有優勢

hive啟動報錯---java.net.UnknownHostException: cluster

Phoenix Java API配置及使用總結# ZK方式# Query Server方式

搭建Hadoop分布式叢集搭建Hadoop分布式叢集