一、 概述
混合雲容災服務(HDR)是阿裡雲提供的低成本高性能業務連續性保障的服務,可以為企業内部關鍵應用,網際網路應用,乃至Hadoop大資料叢集提供容災服務。
其中的連續複制型(CDR)基于磁盤資料連續複制技術,可以為企業關鍵業務提供低至秒級RPO,分鐘級RTO的容災服務,極大縮短業務當機時間,減少資料丢失損失。其一鍵演練,全鍊路監控,自動化運維等功能更是解決了傳統容災服務操作難,驗證難,維護難的問題,極大提高了容災系統的可用性,釋放了容災系統的價值。
CDR近期推出了針對阿裡雲上環境的跨地域和跨可用區容災方案,可以為雲上應用的業務連續性,等保合規要求等提供保障。本操作指南介紹的是一個典型的阿裡雲上應用跨地域整站異地容災場景的操作方法。
二、 場景介紹
某客戶已經在阿裡雲上杭州地域通過雙AZ部署應用,做到了多可用區雙活,因為業務連續名額以及合規要求,需要在異地做應用容災。核心要求是
- 生産在杭州地域,要求容災地域實體距離大,選擇北京地域
- 5分鐘以内RPO,15分鐘以内RTO。
- 整站容災,所有伺服器在異地拉起後IP不變,避免應用配置過多修改,影響RTO
- 一鍵演練,運維人員需要每3個月在不影響生産環境的情況下,做一次操作演練
容災架構概略圖如下

- 全站的ECS伺服器通過HDR-CDR實作秒級RPO的容災複制
- RDS資料庫基于RDS跨地域複制實作資料庫異地容災
- 北京地域VPC網絡配置保持與杭州地域一緻 (僅多加一個vSwitch用于接收複制資料),北京地域容災站點所有ECS僅運作複影最小規格複影ECS,隻有在容災演練和故障切換時按需拉起全規格ECS,接管業務
- 整體容災演練,切換,回切操作都有HDR容災控制台來操作
本文将介紹整個容災操作的全流程,主要包括以下内容。整體環境做了較大簡化(簡化應用,未包含RDS),便于關注操作流程
- 環境準備
- 啟動容災複制
- 容災演練
- 故障切換
- 故障恢複
三、 環境準備
生産站點(杭州地域)
- 我們建立VPC(官網服務VPC),以及網段為192.168.1.0/24的虛拟交換機(生産vSwitch)
阿裡雲ECS跨地域整站容災操作指南 - 在它的虛拟交換機(生産vSwitch)下面部署了3台ECS。1台windows ECS-IISSvr,2台Centos 分别為:oraclesvr,midwaresvr。(ECS的數量,規格,資料盤,作業系統等配置等都可以按照實際情況自行決定,注意作業系統僅可選擇 支援清單 中的類型。)
阿裡雲ECS跨地域整站容災操作指南
容災站點 (北京地域)
為了實作跨地域整站容災,需要在另一個地域建立一個一緻的VPC,我們選擇在北京地域。
-
建立好VPC,以及2個虛拟交換機,容災切換虛拟機(容災切換vSwitch)和容災複制虛拟機(容災複制VSwitch)
注意,這裡的容災切換虛拟機(容災切換vSwitch)需要與杭州地域的虛拟交換機(生産vSwitch)一樣網段的虛拟交換機192.168.1.0。這個虛拟交換機用于在容災演練和容災切換時,用原始IP拉起ECS。容災複制虛拟機(容災複制VSwitch)用于在平時容災複制是從源端接收資料,建立為192.168.2.0網段。
另外,因為做容災複制和容災切換時,都需要確定有ECS庫存,我們建議在靠後的可用區,如G區等。
四、 啟動容災複制
1. 登入混合雲容災控制台,建立容災站點對
進入混合雲容災控制台,建立連續複制型容災站點對,選擇區域容災到區域場景。在這裡我們選取杭州的官網服務VPC作為主站,北京的容災VPC作為從站(如下圖)。
2.注冊ECS
進入容災站點對,點選受保護伺服器頁簽,點選添加按鈕,選擇要保護的ECS。
添加ECS後,連續複制Agent就會被自動安裝到指定的ECS中。CentOS伺服器會變成以初始化的狀态,而Windows伺服器比較特殊,控制台會提示您請重新開機的資訊,您手動重新開機後,Windows伺服器會變成以初始化的狀态。
3. 啟動複制
注冊完成後,點選啟動複制,從更多-故障切換-啟動複制入口進。
在啟動複制設定頁面,在恢複點政策這裡選擇打快照的頻率,我們會對這些恢複點保留一個月的曆史資料,便于快速恢複到曆史時間點。在複制網絡選擇容災複制VSwitch,在恢複網絡選擇容災切換vSwitch。
啟動複制後可以通過任務清單頁簽檢視進度。複制分為兩階段,全量複制和實時複制兩階段,全量複制即初始整機全量複制,實時複制是指全量複制已經完成,所有實時IO正在被立即複制到容災端。
當伺服器處于實時複制中階段,可以通過右側的檢視複制資訊,RPO等。
點選複制資訊,可以檢視複制網絡等資訊。RPO則表示該時間段内的資料延遲。
4. 容災演練
等伺服器處于實時複制狀态時,您就可以進行容災演練。容災演練是指在不影響容災複制的情況下,驗證應用是否可以在容災站點拉起起并正常工作,是一個按預定計劃進行的操作(可能幾個月一次)的操作。初次容災演練因需要在目标端打出初始快照,可能耗時較長。點選容災演練即可開始演練。您可以更改執行個體名稱,執行個體規格(CPU,記憶體),選擇從站下不同虛拟機網絡,3種IP設定(我們這裡選擇保留目前IP,對于整站容災,保留原IP将使得某些配置大大簡化),是否使用SSD,選擇曆史恢複點或目前時間點,是否綁定彈性公網IP,以及添加切換後執行腳本(比如使用者的環境對RDS有依賴。做容災時,RDS複制由RDS系統解決,那麼在目标站需要修改配置時,可以用腳本自動解決)。
容災演練成功,可以通過連結點選進去檢視拉起的ECS配置,通過遠端連接配接檢視ECS内容。結束後,需要清空演練環境。
5. 故障切換
當生産端發生當機故障,您就需要做故障切換操作,來将業務切換到容災站點。
注意,點選故障切換後,容災複制将停止。在非故障情況下,請使用容災演練在驗證容災系統可用性
故障切換入口:更多-故障切換-故障切換。
故障切換的設定同容災演練設定一樣,不過因視窗大小的原因,切換後執行腳本這一項設定為現出。
故障切換完成,可以通過連結進入檢視拉起的ECS配置以及内容,如果不是你需要的,可以通過切換恢複點,重新更改配置。切換恢複點入口:更多-故障切換-切換恢複點。
注意,故障切換也允許您切換恢複點,以便恢複到曆史時間點
故障切換完成,通過連結确認是你需要的ECS,需要确認故障切換。入口:更多-故障切換-确認故障切換。
七、 反向複制與故障恢複
在故障切換後,容災站點會承載生産業務。一般情況下,您需要在一定時間内,将業務切回生産站點。但此時容災端已經産生了心的業務資料,您就需要将容災站點的ECS反向複制回到生産站點
1、 ECS反向注冊
在北京地域拉起的ECS需要反向注冊,入口:更多-故障恢複-反向注冊。
反向注冊後,伺服器的狀态會變成已反向初始化。
2、啟動反向複制
注冊完成後點選啟動反向複制(可以選擇原機恢複恢複至初始ECS)。入口:更多-故障恢複-啟動反向複制。啟動反向複制設定,可以選擇主站杭州地域的虛拟交換機作為複制網絡和恢複網絡。注意,這裡的複制網絡和恢複網絡必須選用同一可用區。
同時還可以選擇原機恢複,如下圖所示。點選原機恢複,要注意,啟動反向複制後,原機ECS内容會被清除,變成shadow vm。
反向複制也包括兩階段,全量複制,增量複制即反向實時複制中階段。
3、故障恢複
當伺服器處于實時複制中階段,就可以進行故障恢複。故障恢複入口:更多-故障恢複-故障恢複。點選故障恢複後,可以更改執行個體名稱,檢視相關資訊,添加恢複後執行腳本。
故障恢複完成,可以通過連結進入檢視相關配置,内容等,到此一個循環結束。之後可以進行登出該伺服器,或者注冊故障恢複的ECS。登出入口:更多-伺服器操作-登出 ,注冊入口:更多-故障切換-注冊。