三篇文章了解 TiDB 技術内幕：談排程

何一個複雜的系統，使用者感覺到的都隻是冰山一角，資料庫也不例外。前兩篇文章介紹了 TiKV、TiDB 的基本概念以及一些核心功能的實作原理，這兩個元件一個負責 KV 存儲，一個負責 SQL 引擎，都是大家看得見的東西。在這兩個元件的後面，還有一個叫做 PD（Placement Driver）的元件，雖然不直接和業務接觸，但是這個元件是整個叢集的核心，負責全局元資訊的存儲以及 TiKV 叢集負載均衡排程。本篇文章介紹一下這個神秘的子產品。這部分比較複雜，很多東西大家平時不會想到，也很少在其他文章中見到類似的東西的描述。我們還是按照前兩篇的思路，先講我們需要什麼樣的功能，再講我們如何實作，大家帶着需求去看實作，會更容易的了解我們做這些設計時背後的考量。

先回憶一下第一篇文章提到的一些資訊，TiKV 叢集是 TiDB 資料庫的分布式 KV 存儲引擎，資料以 Region 為機關進行複制和管理，每個 Region 會有多個 Replica（副本），這些 Replica 會分布在不同的 TiKV 節點上，其中 Leader 負責讀/寫，Follower 負責同步 Leader 發來的 raft log。了解了這些資訊後，請思考下面這些問題：

如何保證同一個 Region 的多個 Replica 分布在不同的節點上？更進一步，如果在一台機器上啟動多個 TiKV 執行個體，會有什麼問題？

TiKV 叢集進行跨機房部署用于容災的時候，如何保證一個機房掉線，不會丢失 Raft Group 的多個 Replica？

添加一個節點進入 TiKV 叢集之後，如何将叢集中其他節點上的資料搬過來?

當一個節點掉線時，會出現什麼問題？整個叢集需要做什麼事情？如果節點隻是短暫掉線（重新開機服務），那麼如何處理？如果節點是長時間掉線（磁盤故障，資料全部丢失），需要如何處理？

假設叢集需要每個 Raft Group 有 N 個副本，那麼對于單個 Raft Group 來說，Replica 數量可能會不夠多（例如節點掉線，失去副本），也可能會過于多（例如掉線的節點又回複正常，自動加入叢集）。那麼如何調節 Replica 個數？

讀/寫都是通過 Leader 進行，如果 Leader 隻集中在少量節點上，會對叢集有什麼影響？

并不是所有的 Region 都被頻繁的通路，可能通路熱點隻在少數幾個 Region，這個時候我們需要做什麼？

叢集在做負載均衡的時候，往往需要搬遷資料，這種資料的遷移會不會占用大量的網絡帶寬、磁盤 IO 以及 CPU？進而影響線上服務？

這些問題單獨拿出可能都能找到簡單的解決方案，但是混雜在一起，就不太好解決。有的問題貌似隻需要考慮單個 Raft Group 内部的情況，比如根據副本數量是否足夠多來決定是否需要添加副本。但是實際上這個副本添加在哪裡，是需要考慮全局的資訊。整個系統也是在動态變化，Region 分裂、節點加入、節點失效、通路熱點變化等情況會不斷發生，整個排程系統也需要在動态中不斷向最優狀态前進，如果沒有一個掌握全局資訊，可以對全局進行排程，并且可以配置的元件，就很難滿足這些需求。是以我們需要一個中心節點，來對系統的整體狀況進行把控和調整，是以有了 PD 這個子產品。

上面羅列了一大堆問題，我們先進行分類和整理。總體來看，問題有兩大類：

作為一個分布式高可用存儲系統，必須滿足的需求，包括四種：

副本數量不能多也不能少

副本需要分布在不同的機器上

新加節點後，可以将其他節點上的副本遷移過來

節點下線後，需要将該節點的資料遷移走

作為一個良好的分布式系統，需要優化的地方，包括：

維持整個叢集的 Leader 分布均勻

維持每個節點的儲存容量均勻

維持通路熱點分布均勻

控制 Balance 的速度，避免影響線上服務

管理節點狀态，包括手動上線/下線節點，以及自動下線失效節點

滿足第一類需求後，整個系統将具備多副本容錯、動态擴容/縮容、容忍節點掉線以及自動錯誤恢複的功能。滿足第二類需求後，可以使得整體系統的負載更加均勻、且可以友善的管理。

為了滿足這些需求，首先我們需要收集足夠的資訊，比如每個節點的狀态、每個 Raft Group 的資訊、業務通路操作的統計等；其次需要設定一些政策，PD 根據這些資訊以及排程的政策，制定出盡量滿足前面所述需求的排程計劃；最後需要一些基本的操作，來完成排程計劃。

我們先來介紹最簡單的一點，也就是排程的基本操作，也就是為了滿足排程的政策，我們有哪些功能可以用。這是整個排程的基礎，了解了手裡有什麼樣的錘子，才知道用什麼樣的姿勢去砸釘子。

上述排程需求看似複雜，但是整理下來最終落地的無非是下面三件事：

增加一個 Replica

删除一個 Replica

将 Leader 角色在一個 Raft Group 的不同 Replica 之間 transfer

剛好 Raft 協定能夠滿足這三種需求，通過 AddReplica、RemoveReplica、TransferLeader 這三個指令，可以支撐上述三種基本操作。

排程依賴于整個叢集資訊的收集，簡單來說，我們需要知道每個 TiKV 節點的狀态以及每個 Region 的狀态。TiKV 叢集會向 PD 彙報兩類消息：

每個 TiKV 節點會定期向 PD 彙報節點的整體資訊

TiKV 節點（Store）與 PD 之間存在心跳包，一方面 PD 通過心跳包檢測每個 Store 是否存活，以及是否有新加入的 Store；另一方面，心跳包中也會攜帶這個 Store 的狀态資訊，主要包括：

總磁盤容量

可用磁盤容量

承載的 Region 數量

資料寫入速度

發送/接受的 Snapshot 數量（Replica 之間可能會通過 Snapshot 同步資料）

是否過載

标簽資訊（标簽是具備層級關系的一系列 Tag）

每個 Raft Group 的 Leader 會定期向 PD 彙報資訊

每個 Raft Group 的 Leader 和 PD 之間存在心跳包，用于彙報這個 Region 的狀态，主要包括下面幾點資訊：

Leader 的位置

Followers 的位置

掉線 Replica 的個數

資料寫入/讀取的速度

PD 不斷的通過這兩類心跳消息收集整個叢集的資訊，再以這些資訊作為決策的依據。除此之外，PD 還可以通過管理接口接受額外的資訊，用來做更準确的決策。比如當某個 Store 的心跳包中斷的時候，PD 并不能判斷這個節點是臨時失效還是永久失效，隻能經過一段時間的等待（預設是 30 分鐘），如果一直沒有心跳包，就認為是 Store 已經下線，再決定需要将這個 Store 上面的 Region 都排程走。但是有的時候，是運維人員主動将某台機器下線，這個時候，可以通過 PD 的管理接口通知 PD 該 Store 不可用，PD 就可以馬上判斷需要将這個 Store 上面的 Region 都排程走。

PD 收集了這些資訊後，還需要一些政策來制定具體的排程計劃。

一個 Region 的 Replica 數量正确

當 PD 通過某個 Region Leader 的心跳包發現這個 Region 的 Replica 數量不滿足要求時，需要通過 Add/Remove Replica 操作調整 Replica 數量。出現這種情況的可能原因是：

某個節點掉線，上面的資料全部丢失，導緻一些 Region 的 Replica 數量不足

某個掉線節點又恢複服務，自動接入叢集，這樣之前已經補足了 Replica 的 Region 的 Replica 數量多過，需要删除某個 Replica

管理者調整了副本政策，修改了 max-replicas 的配置

一個 Raft Group 中的多個 Replica 不在同一個位置

注意第二點，『一個 Raft Group 中的多個 Replica 不在同一個位置』，這裡用的是『同一個位置』而不是『同一個節點』。在一般情況下，PD 隻會保證多個 Replica 不落在一個節點上，以避免單個節點失效導緻多個 Replica 丢失。在實際部署中，還可能出現下面這些需求：

多個節點部署在同一台實體機器上

TiKV 節點分布在多個機架上，希望單個機架掉電時，也能保證系統可用性

TiKV 節點分布在多個 IDC 中，向單個機房掉電時，也能保證系統可用

這些需求本質上都是某一個節點具備共同的位置屬性，構成一個最小的容錯單元，我們希望這個單元内部不會存在一個 Region 的多個 Replica。這個時候，可以給節點配置 lables 并且通過在 PD 上配置 location-labels 來指名哪些 lable 是位置辨別，需要在 Replica 配置設定的時候盡量保證不會有一個 Region 的多個 Replica 所在結點有相同的位置辨別。

副本在 Store 之間的分布均勻配置設定

前面說過，每個副本中存儲的資料容量上限是固定的，是以我們維持每個節點上面，副本數量的均衡，會使得總體的負載更均衡。

Leader 數量在 Store 之間均勻配置設定

Raft 協定要讀取核寫入都通過 Leader 進行，是以計算的負載主要在 Leader 上面，PD 會盡可能将 Leader 在節點間分散開。

通路熱點數量在 Store 之間均勻配置設定

每個 Store 以及 Region Leader 在上報資訊時攜帶了目前通路負載的資訊，比如 Key 的讀取/寫入速度。PD 會檢測出通路熱點，且将其在節點之間分散開。

各個 Store 的存儲空間占用大緻相等

每個 Store 啟動的時候都會指定一個 Capacity 參數，表明這個 Store 的存儲空間上限，PD 在做排程的時候，會考慮節點的存儲空間剩餘量。

控制排程速度，避免影響線上服務

排程操作需要耗費 CPU、記憶體、磁盤 IO 以及網絡帶寬，我們需要避免對線上服務造成太大影響。PD 會對目前正在進行的操作數量進行控制，預設的速度控制是比較保守的，如果希望加快排程(比如已經停服務更新，增加新節點，希望盡快排程)，那麼可以通過 pd-ctl 手動加快排程速度。

支援手動下線節點

當通過 pd-ctl 手動下線節點後，PD 會在一定的速率控制下，将節點上的資料排程走。當排程完成後，就會将這個節點置為下線狀态。

了解了上面這些資訊後，接下來我們看一下整個排程的流程。

PD 不斷的通過 Store 或者 Leader 的心跳包收集資訊，獲得整個叢集的詳細資料，并且根據這些資訊以及排程政策生成排程操作序列，每次收到 Region Leader 發來的心跳包時，PD 都會檢查是否有對這個 Region 待進行的操作，通過心跳包的回複消息，将需要進行的操作傳回給 Region Leader，并在後面的心跳包中監測執行結果。注意這裡的操作隻是給 Region Leader 的建議，并不保證一定能得到執行，具體是否會執行以及什麼時候執行，由 Region Leader 自己根據目前自身狀态來定。

本篇文章講的東西，大家可能平時很少會在其他文章中看到，每一個設計都有背後的考量，希望大家能了解到一個分布式存儲系統在做排程的時候，需要考慮哪些東西，如何将政策、實作進行解耦，更靈活的支援政策的擴充。

至此三篇文章已經講完，希望大家能夠對整個 TiDB 的基本概念和實作原理有了解，後續我們還會寫更多的文章，從架構以及代碼級别介紹 TiDB 的更多内幕。如果大家有問題，歡迎發郵件到 [email protected] 進行交流。

作者簡介：申礫，TiDB Tech Lead，前網易有道詞典伺服器端核心開發，前奇虎 360 新聞推薦系統 / 地圖基礎資料與檢索系統 Tech Lead。

TiDB 源碼位址：https://github.com/pingcap/tidb

本文僅代表作者觀點，不代表