MongoDB疑難解析：為什麼更新之後負載升高了？

本文是“我和MongoDB的故事”征文比賽的二等獎得主李鵬沖的文章。下面我們一起來欣賞下。

問題

近期線上一個三分片叢集從 3.2 版本更新到 4.0 版本以後，叢集節點的 CPU 的負載升高了很多（10% -> 40%）, 除了版本的更新，項目邏輯和操作量均無變化。關閉 Balancer 以後 CPU 負載回歸正常，穩定在 10% 以下。為此，隻能經常關閉目前正在寫入表的 balancer , 每周二打開 balancer 開啟均衡，在此期間節點的 CPU 負載持續穩定在 40% 。叢集有 3 個分片，除了 MongoDB 版本的變化，項目本身的邏輯無任何變化。那麼更新以後 CPU 負載較大變化的背後是什麼原因呢？

監控與日志

首先可以明确，更新以後 CPU 負載升高和 balancer 遷移資料有關。觀察更新以後 4.0 版本，周二打開 balancer 期間的負載情況和 mongostat 結果：

可以發現，CPU 負載升高和 delete 資料的情況很吻合。而遷移資料資料之後源節點需要删除遷移走的資料，是以肯定有大量的 delete 。遷移資料之後的删除也會有如下的日志：

53094:2019-10-08T10:09:24.035199+08:00 I SHARDING [Collection Range Deleter] No documents remain to delete in dt2log.tbl_log_item_20191001 range [{ id: -3074457345618258602 }, {  id: -3033667061349287050 })
53095:2019-10-08T10:09:24.035222+08:00 I SHARDING [Collection Range Deleter] Waiting for m ajority replication of local deletions in dt2log.tbl_log_item_20191001 range [{ _id: -3074 457345618258602 }, { _id: -3033667061349287050 })
53096:2019-10-08T10:09:24.035274+08:00 I SHARDING [Collection Range Deleter] Finished dele ting documents in dt2log.tbl_log_item_20191001 range [{ _id: -3074457345618258602 }, { _id
: -3033667061349287050 })

是以從監控和日志判斷， CPU 負載較高主要是因為遷移資料之後的删除導緻。而且叢集的表都是 {_id : hashed} 分片類型的表，資料量較大，但是每條資料較小，平均每個 chunk 10w+ 的文檔數，删除資料速度約 200-300/s ，是以移動一個 chunk 導緻的删除就會持續 10 分鐘左右。

統計最近2個周期，開啟 balancer 以後 moveChunk 的情況：

從上表可知此場景下， {_id : hashed} 分片類型集合資料基本已經均勻了，不必重新開機開啟 balancer 。因為每個chunk 文檔數較多，删除會比較耗資源。

關閉表的 balancer 可以解決更新之後負載升高的問題，但是竟然是為何更新到 4.0 之後 CPU 負載較高, 而 3.2 版本穩定在低位呢？這隻有可能是一個原因：4.0 版本更頻繁的發生 moveChunk, 持續的删除資料導緻 CPU 負載一直較高；3.2 版本較少的發生 moveChunk，不用删除資料是以負載很低。

是以本次問題的根本是: 4.0 版本和 3.2 版本的 balancer 與 moveChunk 的邏輯是否有差别？同樣的操作，為什麼 4.0版本的叢集會有較多的 moveChunk ？

撸代碼：splitChunk、balancer與moveChunk

當通過 mongos 發生插入和更新删除操作時，mongos 會估算對應 chunks 的資料量的大小，滿足條件會觸發splitChunk 的操作，splitChunk 之後可能會導緻叢集的 chunk 分布不均勻。balancer 檢測資料的分布情況，當資料配置設定不均勻時，發起 moveChunk 任務，将資料從 chunks 較多的分片遷移到 chunks 較少的分片，遷移之後源節點會異步删除遷移走的 chunk 資料。

3.2 版本和 4.0 版本，此部分邏輯最大的差別就是, 3.2 版本 balancer 在 mongos，4.0 版本在 config（3.4版本開始)，moveChunk 過程和删除資料的邏輯基本沒有差異。

splitChunk

split chunks 一般是在插入、更新、删除資料時，由 mongos 發出到分片的 splitVector 指令，此時分片才會判斷是否需要 split 。但是 mongos 并不知道每個 chunk 真正的資料量，是利用一個簡單的估算算法判斷的。

啟動時，mongos 預設每個 chunk 的原始大小為 0-1/5 maxChunkSize 範圍取個随機值；
之後 chunk 内資料，每次 update/insert 操作時，chunkSize = chunkSize + docSize；
當 chunkSize > maxChunkSize/5 時，觸發一次可能 split chunk 的操作；到分片mongod 執行 splitVector指令，splitVector 指令傳回 chunk 的分割點，如果傳回為空那麼不需要 split ，否則繼續 splitChunk。

也就是說，splitChunk 操作有滞後性，即使資料分布均衡，也有可能 splitChunk 執行時間的差異導緻 chunks 分布存在中間的不均勻狀态，導緻大量的 moveChunk 。

balancer

無論 3.2 還是 4.0 的 balancer ，預設的檢測周期為 10s , 如果發生了 moveChunk ，檢測周期為 1s 。balancer 基本過程也大緻相同：

config.shards 讀取分片資訊 ;
config.collections 讀取所有集合資訊，并且随機排序儲存到一個數組中；
對每個集合從 config.chunks 讀取 chunks 的資訊；
含有最多 chunks 數量（maxChunksNum）的分片為源分片，含有最少 chunks 數量(minChunksNum)的分片為目的分片; 如果 maxChunksNum - minChunksNum 大于遷移的門檻值（threshold），那麼就是不均衡狀态，需要遷移，源分片的 chunks 第一個 chunk 為待遷移的 chunk ，構造一個遷移任務（源分片，目的分片，chunk）。

每次 balancer 會檢測所有集合的情況，每個集合最多一個遷移任務 ; 而且構造遷移任務時，如果某個集合含有最多數量的分片或者最少數量 chunks 的分片，已經屬于某一個遷移任務，那麼此集合本輪 balancer 不會發生遷移。最後，本次檢測出的遷移任務完成以後才開始下次 balancer 過程。

balancer 過程中，會對集合做一次随機排序，當有多個集合的資料需要均衡時，遷移時也是随機的，并不是遷移完一個集合開始下一個集合。

重點關注上述的遷移門檻值，就是這個遷移的門檻值 threshold 在 3.2 和 4.0 版本有所不同。

3.2 版本, chunks 數量小于 20 的時候為 2，小于 80 的時候為 4，大于 80 的時候為 8 。也就是說假設兩分片叢集，某個表有 100 個chunk , 每個分片分别有 47 和 53 個chunk 。那麼此時 balance 認為是均衡的，不會發生遷移。

int threshold = 8;
if (balancedLastTime || distribution.totalChunks() < 20) threshold = 2;
else if (distribution.totalChunks() < 80) threshold = 4;

4.0 版本，chunks 數量差距大于 2 的時候就會發生遷移。同樣的上述例子中，每個分片分别有 47 和 53 個 chunk時， balance 認為是不均衡的，會發生遷移。

const size_t kDefaultImbalanceThreshold = 2; const size_t kAggressiveImbalanceThreshold = 1;
const size_t imbalanceThreshold = (shouldAggressivelyBalance || distribution.totalChunks()
< 20)
? kAggressiveImbalanceThreshold: kDefaultImbalanceThreshold;
// 這裡雖然有個 1 ，但是實際差距為 1 的時候不會發生遷移，因為判斷遷移時，還有一個名額：平均每個分片的最大 ch
unks 數量，隻有當 chunks 數量大于這個值的時候才會發生遷移。
const size_t idealNumberOfChunksPerShardForTag = (totalNumberOfChunksWithTag / totalNumberOfShardsWithTag) + (totalNumberOfChunksWithTag % totalNumberOfShardsWithTag ? 1 : 0);

關于此門檻值，官方文檔也有介紹:

To minimize the impact of balancing on the cluster, the balancer only begins balancing after the distribution of chunks for a sharded collection has reached certain thresholds. The thresholds apply to the difference in number of chunks between the shard with the most chunks for the collection and the shard with the fewest chunks for that collection. The balancer has the following thresholds:

The balancer stops running on the target collection when the difference between the number of chunks on any two shards for that collection is less than two, or a chunk migration fails.

但是從代碼上，從3.4 版本開始，此門檻值的邏輯就已經變化了，但是文檔并沒有更新。

moveChunk

moveChunk 是一個比較複雜的動作, 大緻過程如下：

目的分片，首先要删除要移動的 chunk 的資料。是以會有一個删除任務。

可以在 config.settings 設定 _secondaryThrottle 和 waitForDelete 設定 moveChunk 過程中插入資料和删除資料的 write concern

_secondaryThrottle: true 表示 balancer 插入資料時，至少等待一個 secondary 節點回複；false 表示不等待寫到 secondary 節點；也可以直接設定為 write concern ，則遷移時使用這個 write concern . 3.2 版本預設 true, 3.4 開始版本預設 false；
waitForDelete: 遷移一個 chunk 資料以後，是否同步等待資料删除完畢；預設為 false , 由一個單獨的線程異步删除孤兒資料。

設定方式如下：

use config db.settings.update(
{ "_id" : "balancer" },
{ $set : { "_secondaryThrottle" : { "w": "majority" } ,"_waitForDelete" : true } },
{ upsert : true }
)

3.2 版本 _secondaryThrottle 預設 true, 3.4 開始版本預設 false，是以 3 .2 版本和4.0 版本 moveChunk 遷移資料時，4.0版本會更快完成，遷移中目的分片的每秒 insert 量級也會更多，對 CPU 負載也會有些許的影響。

另外，3.4.18/3.6.10/4.0.5 及之後版本，還有以下參數 (Parameter) 調整插入資料的速度：

migrateCloneInsertionBatchDelayMS: 遷移資料時，每次插入的間隔，預設 0 不等待。
migrateCloneInsertionBatchSize: 遷移資料時，每次插入的數量，預設為 0 無限制。

db.adminCommand({setParameter:1,migrateCloneInsertionBatchDelayMS:0})
db.adminCommand({setParameter:1,migrateCloneInsertionBatchSize:0})

異步删除資料線程

3.2 和 4.0 版本的異步删除線程具體實作略有不同，但是，根本過程還是一緻的，用一個隊列儲存需要删除的 range, 循環的取隊列的資料删除資料。是以異步删除資料線程是按照 chunk 進入隊列的順序，逐個删除。總入口：

3.2 版本 db/range_deleter.cpp 線程入口 RangeDeleter::doWork()
4.0 版本 db/s/metadata_manager.cpp scheduleCleanup 時會有一個唯一的線程執行清理任務

4.0 版本在删除資料時，按批删除資料，每次删除數量計算方式如下：

maxToDelete = rangeDeleterBatchSize.load(); 
if (maxToDelete <= 0) {
maxToDelete = std::max(int(internalQueryExecYieldIterations.load()), 1); // 128
}

有較多的參數可以靈活的控制删除速度，預設情況下，900s 以後開始清理 chunks 的資料，每次清理 128 個文檔，每隔 20ms 删除一次。具體通過以下參數設定：

rangeDeleterBatchDelayMS: 删除每個 chunk 資料的時候分批次删除，每批之間間隔的時間，機關 ms，預設 20ms；
internalQueryExecYieldIterations: 預設為 128；
rangeDeleterBatchSize：每次删除資料的數量，預設即為0；為0時，則每次删除的數量為max(internalQueryExecYieldIterations，1)，
orphanCleanupDelaySecs: moveChunk 以後延遲删除資料的時間，機關 s ，預設 900 s

總結

moveChunk 可能對系統的負載産生影響，主要是删除資料階段的影響，一般遷移中的插入資料影響較小；
3.4 及之後的版本存在 balancer 遷移門檻值較低的問題，可能會更頻繁的産生 moveChunk；
文檔資料多而小的表，而且是 hashed 分片，本應預配置設定一定的 chunk 以後永久關閉表的 balancer。開啟balancer 時，3.2 版本因為均衡門檻值較大，較少發生 moveChunk 遷移資料，是以負載較低； 4.0 版本均衡門檻值很小，更容易發生遷移，頻繁的遷移之後删除資料導緻負載較高。

作者：李鵬沖

網易遊戲進階運維工程師，MongoDB和MySQL資料庫愛好者，目前專注于SAAS平台的開發與運維工作。

MongoDB疑難解析：為什麼更新之後負載升高了？

問題

監控與日志

撸代碼：splitChunk、balancer與moveChunk

splitChunk

balancer

moveChunk

異步删除資料線程

總結

繼續閱讀

MySQL的4種隔離級别？出現問題

資料結構與算法（27）——排序（二）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

nginx 安裝錯誤資訊解決

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

mysql使用source指令導入.sql檔案

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希