天天看点

pyspark on yarn 配置1 yarn模式出错2 yarn 模式配置2.1 SparkSession2.2 SparkConf

1 yarn模式出错

pyspark on yarn 在pycharm上执行

出现以下问题:

pyspark on yarn 配置1 yarn模式出错2 yarn 模式配置2.1 SparkSession2.2 SparkConf

解决方案:

在程序最前面添加如下程序

import os

os.environ["HADOOP_CONF_DIR"] = "/opt/module/hadoop-3.1.3/etc/hadoop"
           

2 yarn 模式配置

2.1 SparkSession

from pyspark.sql import  SparkSession

import os
os.environ["HADOOP_CONF_DIR"] = "/opt/module/hadoop-3.1.3/etc/hadoop"
if __name__ == '__main__':
    # 1)创建SparkSession对象
	ss = SparkSession \
	    .builder \
	    .master("yarn") \
	    .appName("merge_yarn") \
	    .getOrCreate()


	# 关闭资源
	ss.stop()
           

2.2 SparkConf

# 1- 创建 spark的 sparkContext核心对象
from pyspark import SparkContext, SparkConf

import os
os.environ["HADOOP_CONF_DIR"] = "/opt/module/hadoop-3.1.3/etc/hadoop"

if __name__ == '__main__':
	# 1)创建sparkContext对象
	conf = SparkConf().setMaster("yarn").setAppName("wordCount_hdfs")
	sc = SparkContext(conf=conf)
 
 
	# 关闭资源
	sc.stop()