mapreduce複制連接配接的代碼_MapReduce 作業記憶體溢出-分類、原理、如何解決？

一、MapReduce作業運作過程中記憶體溢出錯誤分類

1、Mapper/Reducer階段JVM記憶體溢出（一般都是堆）

1)JVM堆(Heap)記憶體溢出：堆記憶體不足時，一般會抛出如下異常：第一種：“java.lang.OutOfMemoryError:” GC overhead limit exceeded；第二種：“Error: Java heapspace”異常資訊；第三種：“running beyondphysical memory limits.Current usage: 4.3 GB of 4.3 GBphysical memory used; 7.4 GB of 13.2 GB virtual memory used. Killing container”。

2)棧記憶體溢出：抛出異常為：java.lang.StackOverflowError 常會出現在SQL中（SQL語句中條件組合太多，被解析成為不斷的遞歸調用），或MR代碼中有遞歸調用。這種深度的遞歸調用在棧中方法調用鍊條太長導緻的。出現這種錯誤一般說明程式寫的有問題。

2、MRAppMaster記憶體不足

如果作業的輸入的資料很大，導緻産生了大量的Mapper和Reducer數量，緻使MRAppMaster（目前作業的管理者）的壓力很大，最終導緻MRAppMaster記憶體不足，作業跑了一般出現了OOM資訊異常資訊為： Exception: java.lang.OutOfMemoryError thrown from theUncaughtExceptionHandler in thread "Socket Reader #1 for port 30703 Halting due to Out Of Memory Error... Halting due to Out Of Memory Error... Halting due to Out Of Memory Error...

3、非JVM記憶體溢出

異常資訊一般為：java.lang.OutOfMemoryError:Direct buffer memory 自己申請使用作業系統的記憶體，沒有控制好，出現了記憶體洩露，導緻的記憶體溢出。

二、錯誤解決參數調優

1、Mapper/Reducer階段JVM堆記憶體溢出參數調優

目前MapReduce主要通過兩個組參數去控制記憶體：（将如下參數調大）

Maper

注意：因為在yarn container這種模式下，map/reduce task是運作在Container之中的，是以上面提到的mapreduce.map(reduce).memory.mb大小都大于mapreduce.map(reduce).java.opts值的大小。mapreduce.{map|reduce}.java.opts能夠通過Xmx設定JVM最大的heap的使用，一般設定為0.75倍的memory.mb，因為需要為java code等預留些空間

2、MRAppMaster:

yarn.app.mapreduce.am.command-opts=-Xmx1024m(預設參數，表示jvm堆記憶體) yarn.app.mapreduce.am.resource.mb=1536(container的記憶體) 注意在Hive ETL裡面，按照如下方式設定： set mapreduce.map.child.java.opts="-Xmx3072m"(注:-Xmx設定時一定要用引号，不加引号各種錯誤) set mapreduce.map.memory.mb=3288 或 set mapreduce.reduce.child.java.opts="xxx" set mapreduce.reduce.memory.mb=xxx 涉及YARN參數：

•yarn.scheduler.minimum-allocation-mb (最小配置設定機關1024M) •yarn.scheduler.maximum-allocation-mb (8192M) •yarn.nodemanager.vmem-pmem-ratio (虛拟記憶體和實體記憶體之間的比率預設 2.1) •yarn.nodemanager.resource.memory.mb

Yarn的ResourceManger（簡稱RM）通過邏輯上的隊列配置設定記憶體，CPU等資源給application，預設情況下RM允許最大AM申請Container資源為8192MB(“

yarn.scheduler.maximum-allocation-mb

“)，預設情況下的最小配置設定資源為1024M(“

yarn.scheduler.minimum-allocation-mb

“)，AM隻能以增量（”

yarn.scheduler.minimum-allocation-mb

“）和不會超過(“

yarn.scheduler.maximum-allocation-mb

“)的值去向RM申請資源，AM負責将(“

mapreduce.map.memory.mb

“)和(“

mapreduce.reduce.memory.mb

“)的值規整到能被(“

yarn.scheduler.minimum-allocation-mb

“)整除，RM會拒絕申請記憶體超過8192MB和不能被1024MB整除的資源請求。（不同配置會有不同） Yarn的工作流程請參考