天天看點

keepalived中的腦裂

    在高可用(HA)系統中,當聯系2個節點的“心跳線”斷開時,本來為一整體、動作協調的HA系統,就分裂成為2個獨立的個體。由于互相失去了聯系,都以為是對方出了故障。兩個節點上的HA軟體像“裂腦人”一樣,争搶“共享資源”、争起“應用服務”,就會發生嚴重後果——或者共享資源被瓜分、2邊“服務”都起不來了;或者2邊“服務”都起來了,但同時讀寫“共享存儲”,導緻資料損壞(常見如資料庫輪詢着的聯機日志出錯)。

對付HA系統“裂腦”的對策,目前達成共識的的大概有以下幾條:

1)添加備援的心跳線,例如:雙線條線(心跳線也HA),盡量減少“裂腦”發生幾率;

2)啟用磁盤鎖。正在服務一方鎖住共享磁盤,“裂腦”發生時,讓對方完全“搶不走”共享磁盤資源。但使用鎖磁盤也會有一個不小的問題,如果占用共享盤的一方不主動“解鎖”,另一方就永遠得不到共享磁盤。現實中假如服務節點突然當機或崩潰,就不可能執行解鎖指令。後備節點也就接管不了共享資源和應用服務。于是有人在HA中設計了“智能”鎖。即:正在服務的一方隻在發現心跳線全部斷開(察覺不到對端)時才啟用磁盤鎖。平時就不上鎖了。

3)設定仲裁機制。例如設定參考IP(如網關IP),當心跳線完全斷開時,2個節點都各自ping一下參考IP,不通則表明斷點就出在本端。不僅“心跳”、還兼對外“服務”的本端網絡鍊路斷了,即使啟動(或繼續)應用服務也沒有用了,那就主動放棄競争,讓能夠ping通參考IP的一端去起服務。更保險一些,ping不通參考IP的一方幹脆就自我重新開機,以徹底釋放有可能還占用着的那些共享資源。