天天看點

三篇文章了解 TiDB 技術内幕:談排程

何一個複雜的系統,使用者感覺到的都隻是冰山一角,資料庫也不例外。 前兩篇文章介紹了 TiKV、TiDB 的基本概念以及一些核心功能的實作原理,這兩個元件一個負責 KV 存儲,一個負責 SQL 引擎,都是大家看得見的東西。在這兩個元件的後面,還有一個叫做 PD(Placement Driver)的元件,雖然不直接和業務接觸,但是這個元件是整個叢集的核心,負責全局元資訊的存儲以及 TiKV 叢集負載均衡排程。 本篇文章介紹一下這個神秘的子產品。這部分比較複雜,很多東西大家平時不會想到,也很少在其他文章中見到類似的東西的描述。我們還是按照前兩篇的思路,先講我們需要什麼樣的功能,再講我們如何實作,大家帶着需求去看實作,會更容易的了解我們做這些設計時背後的考量。

先回憶一下 第一篇文章 提到的一些資訊,TiKV 叢集是 TiDB 資料庫的分布式 KV 存儲引擎,資料以 Region 為機關進行複制和管理,每個 Region 會有多個 Replica(副本),這些 Replica 會分布在不同的 TiKV 節點上,其中 Leader 負責讀/寫,Follower 負責同步 Leader 發來的 raft log。了解了這些資訊後,請思考下面這些問題:

如何保證同一個 Region 的多個 Replica 分布在不同的節點上?更進一步,如果在一台機器上啟動多個 TiKV 執行個體,會有什麼問題?

TiKV 叢集進行跨機房部署用于容災的時候,如何保證一個機房掉線,不會丢失 Raft Group 的多個 Replica?

添加一個節點進入 TiKV 叢集之後,如何将叢集中其他節點上的資料搬過來?

當一個節點掉線時,會出現什麼問題?整個叢集需要做什麼事情?如果節點隻是短暫掉線(重新開機服務),那麼如何處理?如果節點是長時間掉線(磁盤故障,資料全部丢失),需要如何處理?

假設叢集需要每個 Raft Group 有 N 個副本,那麼對于單個 Raft Group 來說,Replica 數量可能會不夠多(例如節點掉線,失去副本),也可能會 過于多(例如掉線的節點又回複正常,自動加入叢集)。那麼如何調節 Replica 個數?

讀/寫都是通過 Leader 進行,如果 Leader 隻集中在少量節點上,會對叢集有什麼影響?

并不是所有的 Region 都被頻繁的通路,可能通路熱點隻在少數幾個 Region,這個時候我們需要做什麼?

叢集在做負載均衡的時候,往往需要搬遷資料,這種資料的遷移會不會占用大量的網絡帶寬、磁盤 IO 以及 CPU?進而影響線上服務?

這些問題單獨拿出可能都能找到簡單的解決方案,但是混雜在一起,就不太好解決。有的問題貌似隻需要考慮單個 Raft Group 内部的情況,比如根據副本數量是否足夠多來決定是否需要添加副本。但是實際上這個副本添加在哪裡,是需要考慮全局的資訊。整個系統也是在動态變化,Region 分裂、節點加入、節點失效、通路熱點變化等情況會不斷發生,整個排程系統也需要在動态中不斷向最優狀态前進,如果沒有一個掌握全局資訊,可以對全局進行排程,并且可以配置的元件,就很難滿足這些需求。是以我們需要一個中心節點,來對系統的整體狀況進行把控和調整,是以有了 PD 這個子產品。

上面羅列了一大堆問題,我們先進行分類和整理。總體來看,問題有兩大類:

作為一個分布式高可用存儲系統,必須滿足的需求,包括四種:

副本數量不能多也不能少

副本需要分布在不同的機器上

新加節點後,可以将其他節點上的副本遷移過來

節點下線後,需要将該節點的資料遷移走

作為一個良好的分布式系統,需要優化的地方,包括:

維持整個叢集的 Leader 分布均勻

維持每個節點的儲存容量均勻

維持通路熱點分布均勻

控制 Balance 的速度,避免影響線上服務

管理節點狀态,包括手動上線/下線節點,以及自動下線失效節點

滿足第一類需求後,整個系統将具備多副本容錯、動态擴容/縮容、容忍節點掉線以及自動錯誤恢複的功能。滿足第二類需求後,可以使得整體系統的負載更加均勻、且可以友善的管理。

為了滿足這些需求,首先我們需要收集足夠的資訊,比如每個節點的狀态、每個 Raft Group 的資訊、業務通路操作的統計等;其次需要設定一些政策,PD 根據這些資訊以及排程的政策,制定出盡量滿足前面所述需求的排程計劃;最後需要一些基本的操作,來完成排程計劃。

我們先來介紹最簡單的一點,也就是排程的基本操作,也就是為了滿足排程的政策,我們有哪些功能可以用。這是整個排程的基礎,了解了手裡有什麼樣的錘子,才知道用什麼樣的姿勢去砸釘子。

上述排程需求看似複雜,但是整理下來最終落地的無非是下面三件事:

增加一個 Replica

删除一個 Replica

将 Leader 角色在一個 Raft Group 的不同 Replica 之間 transfer

剛好 Raft 協定能夠滿足這三種需求,通過 AddReplica、RemoveReplica、TransferLeader 這三個指令,可以支撐上述三種基本操作。

排程依賴于整個叢集資訊的收集,簡單來說,我們需要知道每個 TiKV 節點的狀态以及每個 Region 的狀态。TiKV 叢集會向 PD 彙報兩類消息:

每個 TiKV 節點會定期向 PD 彙報節點的整體資訊

TiKV 節點(Store)與 PD 之間存在心跳包,一方面 PD 通過心跳包檢測每個 Store 是否存活,以及是否有新加入的 Store;另一方面,心跳包中也會攜帶這個 Store 的狀态資訊,主要包括:

總磁盤容量

可用磁盤容量

承載的 Region 數量

資料寫入速度

發送/接受的 Snapshot 數量(Replica 之間可能會通過 Snapshot 同步資料)

是否過載

标簽資訊(标簽是具備層級關系的一系列 Tag)

每個 Raft Group 的 Leader 會定期向 PD 彙報資訊

每個 Raft Group 的 Leader 和 PD 之間存在心跳包,用于彙報這個 Region 的狀态,主要包括下面幾點資訊:

Leader 的位置

Followers 的位置

掉線 Replica 的個數

資料寫入/讀取的速度

PD 不斷的通過這兩類心跳消息收集整個叢集的資訊,再以這些資訊作為決策的依據。除此之外,PD 還可以通過管理接口接受額外的資訊,用來做更準确的決策。比如當某個 Store 的心跳包中斷的時候,PD 并不能判斷這個節點是臨時失效還是永久失效,隻能經過一段時間的等待(預設是 30 分鐘),如果一直沒有心跳包,就認為是 Store 已經下線,再決定需要将這個 Store 上面的 Region 都排程走。但是有的時候,是運維人員主動将某台機器下線,這個時候,可以通過 PD 的管理接口通知 PD 該 Store 不可用,PD 就可以馬上判斷需要将這個 Store 上面的 Region 都排程走。

PD 收集了這些資訊後,還需要一些政策來制定具體的排程計劃。

一個 Region 的 Replica 數量正确

當 PD 通過某個 Region Leader 的心跳包發現這個 Region 的 Replica 數量不滿足要求時,需要通過 Add/Remove Replica 操作調整 Replica 數量。出現這種情況的可能原因是:

某個節點掉線,上面的資料全部丢失,導緻一些 Region 的 Replica 數量不足

某個掉線節點又恢複服務,自動接入叢集,這樣之前已經補足了 Replica 的 Region 的 Replica 數量多過,需要删除某個 Replica

管理者調整了副本政策,修改了 max-replicas 的配置

一個 Raft Group 中的多個 Replica 不在同一個位置

注意第二點,『一個 Raft Group 中的多個 Replica 不在同一個位置』,這裡用的是『同一個位置』而不是『同一個節點』。在一般情況下,PD 隻會保證多個 Replica 不落在一個節點上,以避免單個節點失效導緻多個 Replica 丢失。在實際部署中,還可能出現下面這些需求:

多個節點部署在同一台實體機器上

TiKV 節點分布在多個機架上,希望單個機架掉電時,也能保證系統可用性

TiKV 節點分布在多個 IDC 中,向單個機房掉電時,也能保證系統可用

這些需求本質上都是某一個節點具備共同的位置屬性,構成一個最小的容錯單元,我們希望這個單元内部不會存在一個 Region 的多個 Replica。這個時候,可以給節點配置 lables 并且通過在 PD 上配置 location-labels 來指名哪些 lable 是位置辨別,需要在 Replica 配置設定的時候盡量保證不會有一個 Region 的多個 Replica 所在結點有相同的位置辨別。

副本在 Store 之間的分布均勻配置設定

前面說過,每個副本中存儲的資料容量上限是固定的,是以我們維持每個節點上面,副本數量的均衡,會使得總體的負載更均衡。

Leader 數量在 Store 之間均勻配置設定

Raft 協定要讀取核寫入都通過 Leader 進行,是以計算的負載主要在 Leader 上面,PD 會盡可能将 Leader 在節點間分散開。

通路熱點數量在 Store 之間均勻配置設定

每個 Store 以及 Region Leader 在上報資訊時攜帶了目前通路負載的資訊,比如 Key 的讀取/寫入速度。PD 會檢測出通路熱點,且将其在節點之間分散開。

各個 Store 的存儲空間占用大緻相等

每個 Store 啟動的時候都會指定一個 Capacity 參數,表明這個 Store 的存儲空間上限,PD 在做排程的時候,會考慮節點的存儲空間剩餘量。

控制排程速度,避免影響線上服務

排程操作需要耗費 CPU、記憶體、磁盤 IO 以及網絡帶寬,我們需要避免對線上服務造成太大影響。PD 會對目前正在進行的操作數量進行控制,預設的速度控制是比較保守的,如果希望加快排程(比如已經停服務更新,增加新節點,希望盡快排程),那麼可以通過 pd-ctl 手動加快排程速度。

支援手動下線節點

當通過 pd-ctl 手動下線節點後,PD 會在一定的速率控制下,将節點上的資料排程走。當排程完成後,就會将這個節點置為下線狀态。

了解了上面這些資訊後,接下來我們看一下整個排程的流程。

PD 不斷的通過 Store 或者 Leader 的心跳包收集資訊,獲得整個叢集的詳細資料,并且根據這些資訊以及排程政策生成排程操作序列,每次收到 Region Leader 發來的心跳包時,PD 都會檢查是否有對這個 Region 待進行的操作,通過心跳包的回複消息,将需要進行的操作傳回給 Region Leader,并在後面的心跳包中監測執行結果。注意這裡的操作隻是給 Region Leader 的建議,并不保證一定能得到執行,具體是否會執行以及什麼時候執行,由 Region Leader 自己根據目前自身狀态來定。

本篇文章講的東西,大家可能平時很少會在其他文章中看到,每一個設計都有背後的考量,希望大家能了解到一個分布式存儲系統在做排程的時候,需要考慮哪些東西,如何将政策、實作進行解耦,更靈活的支援政策的擴充。

至此三篇文章已經講完,希望大家能夠對整個 TiDB 的基本概念和實作原理有了解,後續我們還會寫更多的文章,從架構以及代碼級别介紹 TiDB 的更多内幕。如果大家有問題,歡迎發郵件到 [email protected] 進行交流。

作者簡介:申礫,TiDB Tech Lead,前網易有道詞典伺服器端核心開發,前奇虎 360 新聞推薦系統 / 地圖基礎資料與檢索系統 Tech Lead。

TiDB 源碼位址:https://github.com/pingcap/tidb

本文僅代表作者觀點,不代表