《深入了解Spark:核心思想與源碼分析》——3.5節Hadoop相關配置及Executor環境變量

2021-11-08 13:11:04

本節書摘來自華章社群《深入了解spark:核心思想與源碼分析》一書中的第3章，第3.5節hadoop相關配置及executor環境變量，作者耿嘉安，更多章節内容可以通路雲栖社群“華章社群”公衆号檢視

3.5　hadoop相關配置及executor環境變量

3.5.1　hadoop相關配置資訊

預設情況下，spark使用hdfs作為分布式檔案系統，是以需要擷取hadoop相關配置資訊的代碼如下。

val hadoopconfiguration = sparkhadooputil.get.newconfiguration(conf)

擷取的配置資訊包括：

将amazon s3檔案系統的accesskeyid和secretaccesskey加載到hadoop的configuration；

将sparkconf中所有以spark.hadoop.開頭的屬性都複制到hadoop的configuration；

将sparkconf的屬性spark.buffer.size複制為hadoop的configuration的配置io.file.buffer.size。

如果指定了spark_yarn_mode屬性，則會使用yarnsparkhadooputil，否則預設為sparkhadooputil。

3.5.2　executor環境變量

對executor的環境變量的處理，參見代碼清單3-28。executorenvs 包含的環境變量将會在7.2.2節中介紹的注冊應用的過程中發送給master，master給worker發送排程後，worker最終使用executorenvs提供的資訊啟動executor。可以通過配置spark.executor.memory指定executor占用的記憶體大小，也可以配置系統變量spark_executor_memory或者spark_mem對其大小進行設定。

代碼清單3-28　executor環境變量的處理

《深入了解Spark:核心思想與源碼分析》——3.5節Hadoop相關配置及Executor環境變量

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結