這是CDP中Yarn使用手冊系列的第一篇。
Apache YARN 是用于管理在網絡中的多台機器上運作的分布式應用程式的處理層。YARN 允許您使用各種資料處理引擎對資料進行批處理、互動式和實時流處理。
1 Yarn 的特性
YARN 使您能夠在 Hadoop 中管理資源和排程作業。YARN 提供以下功能:
多租戶
您可以使用多個開源和專有的資料通路引擎對同一資料集進行批量、互動式和實時通路。多租戶資料處理提高了企業的 Hadoop 投資回報。
叢集使用率
您可以動态配置設定叢集資源以提高資源使用率。
多種資源類型
您可以使用多種資源類型,例如記憶體、CPU 和 GPU。
可擴充性
顯着提高資料中心的處理容量。YARN 的 ResourceManager 專注于排程并在叢集擴充到管理 PB 資料的數千個節點時跟上步伐。
相容性
為 Hadoop 1 開發的 MapReduce 應用程式在 YARN 上運作,不會中斷現有流程。YARN 保持 API 與先前穩定版 Hadoop 的相容性。
2. 了解 YARN 架構
YARN 允許您使用各種資料處理引擎對存儲在 HDFS 或雲存儲(如 S3 和 ADLS)中的資料進行批處理、互動式和實時流處理。您可以針對不同的用例使用不同的處理架構,例如,您可以為 SQL 應用程式運作 Hive,為記憶體應用程式運作 Spark,為流式應用程式運作Flink/Storm,所有這些都在同一個 Hadoop 叢集上。
YARN 将 Hadoop 的功能擴充到資料中心内發現的新技術,以便您可以利用經濟高效的線性規模存儲和處理。它為獨立軟體供應商和開發人員提供了一個一緻的架構,用于編寫在 Hadoop 中運作的資料通路應用程式。
YARN 架構和工作流程
YARN 具有三個主要元件:
· ResourceManager:使用 Scheduler 和 ApplicationManager 配置設定叢集資源。
· ApplicationMaster:通過訓示 NodeManager 為作業建立或銷毀容器來管理作業的生命周期。一個作業隻有一個 ApplicationMaster。
· NodeManager:通過在叢集節點中建立和銷毀容器來管理特定節點中的作業或工作流。

原文連結:
https://docs.cloudera.com/cdp-private-cloud-base/latest/concepts-compute.html