ZooKeeper 筆記(4) 實戰應用之【消除單點故障】

2021-11-12 17:25:27

關鍵節點的單點故障(Single Point of Failure)在大型的架構中，往往是緻命的。比如：SOA架構中，服務注冊中心(Server Register)統一排程所有服務，如果這個節點挂了，基本上整個SOA架構也就崩潰了，另外hadoop 1.x/2.x中的namenode節點，這是hdfs的核心節點，如果namenode宕掉，hdfs也就廢了。ZooKeeper的出現，很好的解決了這一難題，其核心原理如下：

1. 關鍵節點的運作執行個體（或伺服器），可以跑多個，這些執行個體中的資料完全是相同的（即：對等設計），每個執行個體啟動後，向ZK注冊一個臨時順序節點，比如 /core-servers/server0000001, /core-servers/server0000002 ... ，最後的順序号是由ZK自動遞增的

2. 其它應用需要通路1中的核心伺服器裡，可以事先約定好，從ZK的這些臨時節點中，挑選一個序号最小的節點，做為主伺服器（即master）

3. 當master宕掉時，超過一定的時間門檻值，臨時節點将由ZK自動删除，這樣原來序列最小的節點也就沒了，用戶端應用按2中的約定找最小節點的伺服器時，自動會找到原來次最小的節點，繼續充為master（老大挂了，老二頂上），即實作了故障轉換。如果原來出問題的master恢複了，重新加入ZK，由于順序号是一直遞增，重新加入後，它将做為備胎待命。

示例代碼如下：

上面是類圖，CoreServer類對應核心伺服器，ClientServer類對應用戶端應用伺服器，SPOFTest為單元測試類

CoreServer代碼：

ClientServer類：

SPOF測試類：

測試步驟：

1. 先啟用startCoreServer1()、startCoreServer2() 由于這二個方法中，最後用死循環阻止了程式退出，是以這二台server會一直運作下去，除非手動kill 程序

2. 再啟用testSPOF()，在45行這裡可以打個斷點，進入斷點時，可以手動把startCoreServer1()對應的程序kill掉，即：模拟server1挂掉，然後繼續執行，觀察輸出。

運作結果：

zookeeper state changed (SyncConnected)

server0000000007

server0000000006

node：server0000000006, data:server1

用戶端應用運作中，正在調用：server1 上的服務

...

Disconnected from the target VM, address: '127.0.0.1:64788', transport: 'socket'

node：server0000000007, data:server2

用戶端應用運作中，正在調用：server2 上的服務

-------------

從測試結果看，用戶端通路的核心伺服器，自動從server1切換到了server2上。

ZooKeeper 筆記(4) 實戰應用之【消除單點故障】

繼續閱讀

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理