YARN NodeLabel功能以及在EMR彈性伸縮中的應用

YARN Node Label功能最早是在Hadoop 2.6版本中引入，在後續版本中有更多的功能完善。到了Hadoop 2.8.x版本之後，該功能已經比較完整，可以滿足日常使用。在本文中，我們需要将Node Label功能應用在EMR彈性伸縮場景中。

其實Node Label特性更準确的叫法是Node Partition，也就是說通過label把YARN叢集中的節點分組，每個節點擁有一個label，通過排程器的配置，将作業Task排程到指定的節點中，如果節點沒有配置Label，那麼這個節點屬于Label為DEFAULT的Partition。Hadoop 3.2之後加入的Node Attribute功能是更加靈活的方案，可以友善的給各個節點打上OS/kernel version/CPU architecture/JDK version等标簽，但這個功能在本文中就不展開了。更多關于Node Label的資訊請參考Hadoop YARN PMC Wangda的

文章。

配置

首先需要給YARN服務打開NodeLabel功能，yarn-site.xml需要增加配置：

yarn.node-labels.enabled -> true
yarn.node-labels.fs-store.root-dir -> /yarn/node-label

儲存後需要重新開機YARN ResourceManager。

節點的Node Label

EMR叢集的worker node有兩類節點，分别是core節點（除了NodeManager之外還運作HDFS和HBase等存儲服務程序）和task節點（隻運作NodeManager之類的計算服務），我們首先增加兩個node label

yarn rmadmin -addToClusterNodeLabels "core(exclusive=false),task(exclusive=false)"

exclusive=false意思是這個Label的資源可以共享給申請DEFAULT資源的作業。

然後給各個節點打上标簽（用你的機器名字替代 emr-worker-*.cluster-105364）：

yarn rmadmin -replaceLabelsOnNode \
  "emr-worker-1.cluster-105364=core emr-worker-2.cluster-105364=core emr-worker-3.cluster-105364=task"

Scheduler的配置

目前隻有YARN Capacity Scheduler支援NodeLabel功能，我們以他為例，而且假設一個最簡單的場景，叢集内隻有一個queue（default）。

在配置node label相關的資訊之前，capacity-scheduler.xml 包含如下内容：

<property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>default</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.default.capacity</name>
    <value>100</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
    <value>100</value>
  </property>

新增Node Label相關配置：

<property>
    <name>yarn.scheduler.capacity.root.accessible-node-labels</name>
    <value>core,task</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.accessible-node-labels.core.capacity</name>
    <value>100</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.accessible-node-labels.task.capacity</name>
    <value>100</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.default.accessible-node-labels</name>
    <value>core,task</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.default.accessible-node-labels.core.capacity</name>
    <value>100</value>
  </property>
  <property>
    <name>yarn.scheduler.capacity.root.default.accessible-node-labels.task.capacity</name>
    <value>100</value>
  </property>

上述配置的意思是：

對于Label為core的資源，default queue占用100%的資源
對于Label為task的資源，default queue占用100%的資源

儲存配置之後，需要重新整理YARN Scheduler queue。

作業送出

在彈性伸縮場景下，task節點可能随時被停止，是以如果一個長時間運作的作業的application master（AM）被運作在Task節點上，當節點停止後AM就退出了，可能會造成作業失敗。是以，比較好的政策是AM隻啟動在Core節點上。

如果叢集開啟了Node Label功能，我們可以通過配置作業的方式，将AM啟動在Core節點上。本文中隻介紹MapReduce和Spark兩類作業

MapReduce作業

送出作業如下：

hadoop jar hadoop-mapreduce-examples-2.8.5.jar pi \
    -Dmapreduce.job.am.node-label-expression=core \
    10 100000000

mapreduce.job.am.node-label-expression=core參數指明了MapReduce AM申請core類型資源，是以AM一定會啟動在Core節點上。同時，因為沒有指定普通Task運作的資源（也就是申請了DEFAULT），是以普通Task可以同時運作在Core和Task節點上（exclusive=false）。

如果要希望MapReduce Map或Reduce task隻運作在Task節點上，可以在送出參數上指定：

hadoop jar hadoop-mapreduce-examples-2.8.5.jar pi \
    -Dmapreduce.job.am.node-label-expression=core \
    -Dmapreduce.job.node-label-expression=task \
    100 100000000

另外，還有mapreduce.map.node-label-expression和mapreduce.reduce.node-label-expression等參數可配置。

Spark作業

類似于MapReduce Job，我們可以指定spark.yarn.am.nodeLabelExpression 和 spark.yarn.executor.nodeLabelExpression 将作業送出到不同的節點上。下面這個例子是将Spark AM啟動在Core節點上：

spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn --deploy-mode cluster \
    --conf spark.yarn.am.nodeLabelExpression=core \
    spark-examples_2.11-2.3.2.jar 10

YARN NodeLabel功能以及在EMR彈性伸縮中的應用

配置

節點的Node Label

Scheduler的配置

作業送出

MapReduce作業

Spark作業

參考資料

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結