zeppelin-0.82 与spark-2.1.0.cloudera2使用集成

2023-06-29 06:14:40

spark Interpreter简介

http://zeppelin.apache.org/docs/latest/interpreter/spark.html

建议大家看官网地址。

Name	Class	Description
%spark	SparkInterpreter	Creates a SparkContext and provides a Scala environment
%spark.pyspark	PySparkInterpreter	Provides a Python environment
%spark.r	SparkRInterpreter	Provides an R environment with SparkR support
%spark.sql	SparkSQLInterpreter	Provides a SQL environment
%spark.dep	DepInterpreter	Dependency loader

zeppelin自动帮你内置创建好了SparkContext, SQLContext，SparkSession and ZeppelinContext ，他们变量名是

sc

sqlContext，spark

and

z 。

Note that Scala/Python/R environment shares the same SparkContext, SQLContext and ZeppelinContext instance.

spark interpreter配置

配置可以在多个地方。比如conf/zeppelin-env.sh文件，或者在web界面上的interpreter中新增属性。我的环境启用了hive+sentry的简单认证，所以会有一个身份的配置。

export MASTER=yarn-client
export ZEPPELIN_JAVA_OPTS="-Dmaster=yarn-client -Dspark.executor.memory=1g -Dspark.cores.max=4 -Dspark.executorEnv.PYTHONHASHSEED=0 -Dspark.sql.crossJoin.enabled=true"
export SPARK_HOME=/opt/cloudera/parcels/SPARK2/lib/spark2
export SPARK_SUBMIT_OPTIONS="--driver-memory 512M --executor-memory 1G".
export SPARK_APP_NAME=zeppelin
export HADOOP_CONF_DIR=/bigdata/installer/zeppelin-0.8.2-bin-all/interpreter/spark/conf

这个目录下/bigdata/installer/zeppelin-0.8.2-bin-all/interpreter/spark/conf的配置文件是从/etc/hadoop/conf 拷贝过来的，外加一个/etc/hive/conf/hive-site.xml

zeppelin-0.82 与spark-2.1.0.cloudera2使用集成

web界面上spark interpreter主要配置如下:

HADOOP_USER_NAME	hive
SPARK_HOME	/bigdata/cloudera/parcels/SPARK2/lib/spark2
master	yarn-client
spark.app.name	zeppelin
spark.cores.max	4
spark.executor.memory	1g
zeppelin.spark.useHiveContext	true

jar包依赖如下:

/opt/cloudera/parcels/SPARK2/lib/spark2/jars/jackson-databind-2.6.5.jar

/opt/cloudera/parcels/SPARK2/lib/spark2/jars/netty-all-4.0.42.Final.jar

使用demo

zeppelin-0.82 与spark-2.1.0.cloudera2使用集成

zeppelin-0.82 与spark-2.1.0.cloudera2使用集成

spark Interpreter简介

spark interpreter配置

使用demo

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结