某銀行核心系統基于VPLEX+RecoverPoint架構實作 本地雙活及容災實踐經驗
https://www.talkwithtrend.com/Article/252003
一、概述
IT 系統作為銀行業務的重要支撐平台,随着銀行業務的發展,業務量日益增長,系統數量也相應增加,對 IT 系統的要求也越來越高,對 IT 系統的建設也需要更加完善。如何確定服務提供的可靠性與連續性,提升銀行整體服務水準,是銀行資訊系統建設面臨的重要課題之一。
作為 2010 年通過改革重組并經中國銀保監會準許成立的某銀行,為了滿足業務的發展需求和銀保監等機構的監管要求,必須要根據自身業務的特點、模式和未來的發展趨勢,完善其資料中心,同時建設同城災備中心和異地災備中心,持續提高業務的連續性服務能力。
另外,鑒于某銀行 IT 系統的特點,即采用的資料集中存放、集中處理的大集中模式,這樣的模式雖然有利于加強銀行賬務監管、資料共享、降低營運成本,同時也有效保障系統與資料的完整性,但這種集中模式存在着一定弊端:如果一旦生産中心核心系統或集中存儲等重要系統或裝置發生故障,将會影響全行的所有業務,勢必會帶來一定的經濟損失和聲譽影響。這就要求銀行必須建立穩定可靠的生産中心,盡可能地實作核心系統及其他系統的高可靠運作,同時還應有完善的容災系統來抵禦這種突發的風險事件,以提高銀行業務系統持續服務的能力,保證銀行業務的連續性營運。
二、需求分析
随着某銀行業務規模的不斷壯大和業務産品的快速發展,對其 IT 營運平台提出了更高的要求,特别是在業務連續性能力及大規模突發事件的應急恢複能力方面,為滿足某銀行發展戰略目标,某銀行需要在既有的災備基礎上,進一步完善“兩地三中心”災難備份系統的建設,同時加強生産中心包含核心系統在内的系統建設,實作核心系統、應用資料庫系統的本地雙活,以提升 IT 系統的業務連續性運作能力。
生産中心建設目标:建成穩定可靠的 IT 系統,實作核心存儲系統的本地雙活、核心系統與應用資料庫系統的本地雙活,即核心系統 INFORMIX 資料庫的本地雙活,應用系統 ORACLE 資料庫基于 RAC 叢集的雙活。
同城災備中心建設目标:實作所有重要系統的應用級容災及所有系統的資料級容災,同城中心的資料庫系統與生産中心實作 A+B ( Active+Backup )的主備模式,資料的一緻性采用基于存儲複制的方式實作,同時災備技術名額 RPO 盡可能地接近于 0 、 RTO 小于 2 小時,即優于《資訊安全技術資訊系統災難恢複規範》中等級 5 的要求,同時實作重要資料的 CDP 保護,以及滿足部分系統跨中心的應用級雙活
異地災備中心建設目标:實作資料級容災,即實作生産中心的所有資料在異地中心的容災,同時通過基于資料庫層面的複制技術與 Vmware 虛拟化技術實作櫃面業務與自助裝置業務的應用級災備。
常用術語解釋:
RPO : Recover Point Objective ,複原點目标
RTO : Recover Time Objective ,複原時間目标
CDP : Continuous Data Protection ,連續資料保護
CRR : Continuous Remote Replication ,持續遠端複制
三、基于 VPLEX+RecoverPoint 選型經驗
(一)技術産品選型
根據需求分析、市場調研及相關公司的技術交流,目前市面上常用的可實作本地存儲資料雙活的産品主要的 DELL EMC 公司的 VPLEX 及 IBM 公司的 SVC 技術産品,根據測試體驗、市場占有率及使用者使用感念,拟選擇 DELL EMC 公司的 VPLEX ,其相容性優于 IBM 的 SVC 産品。
對于容災系統建設的技術産品,由本着使用簡便、穩定可靠、易于實作、操作快捷、橫向擴充等原則,同時要求在實施過程不影響現有生産系統的正常運作,目前中小銀行在用的技術産品主要有 VERITAS 的 FS 、飛康的 IPSTOR 、 DELL EMC 的 RecoverPoint ,根據 POC 測試及結合生産與同城中心使用的存儲産品,選用 DELL EMC 的 RecoverPoint 能很好地滿足上述要求。
對于資料雙活的存儲産品選型,根據以往的使用經驗,以及為了 VPLEX 更好的相容性,繼續選擇 DELL EMC 的産品,即選擇 DELL EMC 的 VAMX 系列存儲。
是以,結合資料庫的複制技術及 DELL EMC 的 VPLEX + RecoverPoint 的組合是大多中小銀行在雙活建設與容災建設中常采用的技術方案。
對于異地容災中心,由于帶寬資源的限制,為實作資料級容災的需求,選用 DELL EMC 的 Data Domain 的存儲,将生産中心的所有資料庫通過備份軟體備份儲存至 DELL EMC 的 Data Domain 的存儲媒體中,借助 Data Domain 的複制功能實時傳輸到異地的 Data Domain 中,實作異地資料級容災目标。
以下為 DELL EMC 的 VPLEX 及 RecoverPoint 的技術特點的簡介。
1 、 VPLEX 技術特點
VPLEX 系列主要有兩個産品: VPLEX Local 和 VPLEX Metro 。
• VPLEX Local 支援本地聯合 , 可跨異構陣列提供簡化的管理和無中斷資料移動。
• VPLEX Metro 提供分布式聯合能力,擴充了同步距離内兩個位置間的通路能力。 VPLEX Metro 利用 AccessAnywhere 支援跨遠距離共享,可實作跨中心的存儲資料通路和移動。

圖一
VPLEX 使用一個獨特的群集體系結構,讓金融業使用者可以消除資料中心的實體界限,并允許多個資料中心的伺服器具有對共享塊儲存設備的讀 / 寫通路權限。 VPLEX Local 配置定義為有一、二或四個 VPLEX 引擎,它們通過其充分備援的引擎間結構互連內建到單個群集中。此群集互連功能支援線上添加 VPLEX 引擎,因而為 VPLEX Local 和 VPLEX Metro 配置提供了優異的可擴充性。 VPLEX 群集節點之間以及跨 VPLEX Metro 配置的所有連接配接是充分備援的,確定了針對單點故障的保護。 VPLEX 群集可通過添加更多引擎進行縱向擴充,通過将群集連接配接到 VPLEX Metro 中進行橫向擴充(兩個 VPLEX Metro 群集在城域網距離内連接配接起來)。使用 VPLEX Metro 進行跨實體資料中心陣列鏡像可以有效減低災備系統切換和回切時的複雜 LUN 管理操作。
VPLEX 是一個用于聯合 DELL EMC 和非 DELL EMC 存儲的解決方案,以可擴充、高可用的處理器引擎為基礎, DELL EMC VPLEX 設計為可從小型配置無縫擴充到大型配置。
2 、 RecoverPoint 技術特點
RecoverPoint 資料保護裝置提供了易于配置和安裝的子產品:本地恢複子產品( RecoverPoint CDP )和遠端恢複子產品( RecoverPoint CRR )。這些子產品運作在同一套 RecoverPoint 機器上,既降低成本,又便于管理,也可以基于使用者的特殊需要,分開或者緊密部署,達成無可匹敵的、端到端的保護。下圖描述了其主要功能特點。
圖二
RecoverPoint 在容災系統建設中的應用原理是實作生産中心與容災中心間存儲間 LUN 的複制,即生産中心端(一般為源端)存儲 LUN 通過 SAN 或 IP 方式複制到容災中心端(一般為目的端),正常複制情況下,源端存儲的 LUN 是可用的,目的端存儲的 LUN 為不可用的,隻有在 RecoverPoint 進入“測試拷貝”狀态時,目的端的 LUN 才可用,此狀态下資料複制不會被中斷,還是正常進行,另外,通過進入相應的功能狀态下,還可實作目的端與源端的切換,即實作資料的反向複制。
(二)架構設計選型
在确定了雙活應用及容災系統建設的技術産品選型後,某銀行也采用“兩地三中心”的架構,對“兩地三中心”的建設目标及架構布局規劃為:生産中心通過 VPLEX 實作存儲資料雙活,并結合資料庫工具實作本地雙活;同城中心采用 RecoverPoint (簡稱 RP )進行存儲間的資料複制,以實作容災資料與生産中心的一緻;異地中心實作資料級容災,通過集中備份軟體 Networker 及 DELL EMC 的 Data Domain 的存儲媒體并借助 DD 的複制功能傳輸至異地中心的 Data Domain 的存儲中,以實作資料異地容災。
下圖為兩地三中心的架構設計簡圖
圖三
四、實踐技術方案及經驗
針對目前生産系統的現狀情況,并考慮未來跨中心應用雙活的需求,并本着從簡至繁、從主到次的原則,從資料級至應用級,逐漸實作核心類本地雙活,在條件成熟後,再延伸至跨中心的應用級雙活,再至全雙活的建設方案,充分發揮“兩地三中心”格局的優勢。。
1、 基于 VPLEX Local 本地資料級存儲雙活的實施
使用 VPLEX Local 進行跨異構或同構陣列鏡像可以有效整合資料中心資源、防止陣列單點故障,提供平滑的陣列裝置故障切換。
生産中心的存儲采用集中存儲配置方式,生産中心配置了兩台 DELL EMC 的高端存儲 VMAX100K 及兩台全閃存儲 VMAX250F (如圖三),為了提高主機系統通路存儲的性能,在生産中心配置了兩台高端的 SAN 光纖交換機,建構生産中心 SAN 的核心架構,并将承載核心系統、資料庫系統運作的小型機及應用系統的 X86 伺服器與核心存儲、 VPLEX 直接接入核心 SAN 光纖交換機,通過 zone 的配置實作主機系統在 VPLEX 裝置中來間接通路存儲。
方案實施将利用 DELL EMC VPLEX 來進行本地 DELL EMC 存儲的資料雙活,即通過 VPLEX Local 功能将兩台 VMAX100K 組成一個鏡像組,将兩台 VMAX250F 組成一個鏡像組,進而保證兩組中兩台本地存儲互做備份,任何一台存儲出現故障都不會導緻業務停運或者資料丢失。具體方案及實作過程如下:
1.1 、生産中心核心 SAN 架構圖
如下圖所示,分别由 VMAX100K 與 VMAX250F 通過 VPLEX Local 建構成的兩組雙活存儲,承擔着生産中心核心資料庫、應用資料庫及虛拟化平台的系統運作,任何一組存儲中的一台出現故障都不會影響生産中心的運作。
圖四
1.2 、方案實施
為了實作兩組存儲間的鏡像保護,需将主機通路存儲的方式變更為主機通路 VPLEX ,即将四台 VMAX 存儲全部由 VPLEX 來管理。具體方法:在存儲中劃分的 LUN 不直接 MAPPING 給主機,而是 MAPPING 給 VPLEX ,再在 VPLEX 按照 1 : 1 的方式封裝且不再進行重新劃分,然後依次進行 Claim storage--Create Extends--Create Device--Create Virtual Volume 等操作後,最終将存儲劃分後的 LUN 生成可被主機使用的 Virtual Volume ,同時在 VPLEX 的 Initiators 中注冊主機的 HBA 卡,并标記相應的名稱,然後建立相應的 Storage View ,将對應的 Port 、 Initiator 及 Virtual Volume 加入到該 Storage View 中,就完成了在 VPLEX 中為主機劃分 LUN 的操作,即實作了将存儲的 LUN 配置設定給主機使用的操作,為了實作存儲資料的雙活,分别将組内對應的另一存儲配置設定過來的 LUN ,經 VPLEX 封裝轉換後,再在 VPLEX 中進行本地鏡像 (Local Mirror) ,進而實作核心系統資料及應用系統資料的本地存儲雙活,進而提升生産系統運作的可靠性、穩定性,確定重要資料的安全。
下圖為 VPLEX 的管理界面。
圖五
2、 核心系統及其他資料庫的本地雙活實施
在實作了本地存儲系統的雙活後,為了實作生産中心核心系統的雙活,必須在資料庫層面、應用層面也必須進行雙活部署。其實施方案:
2.1 、應用層面
由于應用系統基本上采用 B/S 架構,雙活部署可以采用中間件的叢集模式,也可心采用基于 f5 的負載分發裝置來實作,結合現狀情況,基本采用 f5 或 RADWARE 的負載均衡裝置來實作,即每個應用部署兩個或多個節點,通過負載均衡裝置來進行應用分發,進而實作應用的多節點運作。對于 C/S 架構的核心系統不能采用中間件的叢集模式來實作應用雙活,隻能通過負載均衡裝置來實作應用層面的雙活。
在生産與同城中心大二層的網絡模式下,應用雙活不僅在生産中心可實作,而且可拓展至跨中心部署實施,實作“準雙活”的同城容災模式,可進一步提升容災技術 RTO 。
2.2 、資料庫層
對于核心系統的資料庫雙活的實作,由于核心系統使用的 Informix 資料庫,不具備 ORCALE 資料庫系統的 RAC 功能,故通過采用 Informix 資料庫的高可用子產品(如 HDR 、 RSS 、 SDS )來實作類似的雙活。基本方案:在生産中心通過 Informix 資料庫的 HDR 分别建構核心系統資料庫 Informix 的主庫( Primary )與備庫( Secondary ),主、備庫之間在 HDR 中配置為同步方式的實時複制,根據 HDR 的特點:備庫隻能為“ Read Only ”狀态,即不具有寫功能,則主要用于查詢交易,其他交易在主庫中完成,實作交易分發控制通過修改核心應用系統來實作,将查詢交易全部分發至備庫,其他交易則分發至主庫,這樣,實作了核心系統的本地雙活。通過該方案不僅充分利用了核心系統的主機資源,而且提升了核心系統的運作性能及核心系統的可靠性,同時在主庫失效時,備庫可在短時間内接管主庫,進而確定資料庫服務不中斷,業務不受影響。
對于其他應用資料庫,則采用 ORACLE 資料的 RAC 模式來進行雙活部署,進而有效實作資料庫的本地雙活。
3、 基于 RecoverPoint 的同城應用級容災
容災建設是商業銀行 IT 系統建設的重要工作之一,而容災建設的關鍵是如何確定災備中心與生産中心資料的一緻性、完整性,容災技術方案的選擇則是容災建設工作的重中之重。某銀行在充分了解市面上現有的成熟容災技術方案後,并吸取同業的成功經驗,最終標明采用 DELL EMC 的 RecoverPoint 産品及該産品的 CRR 功能來進行同城災備的建設,使用該産品可確定同城容災技術名額 RPO 、 RTO 遠優于《資訊安全技術資訊系統災難恢複規範》中等級 5 的技術要求,其實施方案為:
3.1 、容災的系統架構圖
如下圖所示,生産中心與同城災備中心的系統部署采用相同的架構。
圖六
3.2 、方案選擇與實施
為了少走技術彎路,經過與 DELL EMC 的反複交流,某銀行采用 DELL EMC 成熟的基于 RecoverPoint 的存儲複制技術方案來進行同城容災系統的建設,同時為提升容災系統接管生産系統運作的可靠性,同城災備中心與生産中心采用相同的架構部署,并且原則上使兩中心間系統的資源配置比達到或接近 1 : 1 的配比,作業系統版本、資料庫類型與版本也保持與生産中心一緻,這樣隻需将生産中心存儲的資料複制到同城容災中心存儲中即可。
圖七
實施方法:在 RecoverPoint 中,将生産中心核心系統的對應的存儲 LUN 與容災中心核心系統對應的存儲 LUN 進行一對一的配對複制,其複制方向既可以從生産向容災中心複制,即正向複制(正常情況下,為正向複制),也可以從容災中心向生産中心複制,即反向複制。反向複制一般用于容災接管生産系統運作後才使用,或者進行真實的容災切換演練才使用。實作正反向複制是在 RecoverPoint 的管理界面的“資料保護”功能框下依次執行“測試拷貝” - “恢複生産”,執行完成後,存儲的資料複制方向就發生了改變,注意:執行該操作時,一定在兩中心系統停運的條件下,否則不能執行該操作。(如下圖)
圖八
通過 DELL EMC 的 RecoverPoint 建設的容災系統,建設成本低,容災名額高,其容災技術名額可達到或接近《資訊安全技術資訊系統災難恢複規範》中等級 6 的技術要求,而且切換操作簡單,接管生産應用時間短。
五、實踐效果與案例分享
科學合理的技術架構,不僅給工作上帶來便利,而且還會産生可觀的經濟效益及社會效益,下面是基于 VPLEX+RecoverPoint 架構在資料中心建設中具體運用的效果。
(一)基于 RecoverPoint的容災建設的典型實踐應用案例
1、在資料中心遷移中的應用
通過 DELL EMC 的 RecoverPoint 裝置建構的容災系統,不僅容災技術名額滿足容災系統建設的要求,而且在資料中心遷移中也能發揮明顯的優越性。
2017 年,某銀行需要進行生産中心的搬遷,作為資料中心的 IT 人員都知道,資料中心搬遷最大的難點是資料的遷移,如何在盡可能短的停業視窗時間内,将生産中心系統遷移至新中心運作,是一項風險性大、技術難度高的系統工程。由于在前期建設中采用了 DELL EMC 的 RecoverPoint 裝置的容災技術,利用其 CRR 技術功能,實作了兩中心間的存儲資料複制。通過變通使用,将新中心通過 DELL EMC 的 RecoverPoint 裝置建構為容災中心,即将新中心與現有生産中心存儲通過 DELL EMC 的 RecoverPoint 實作遠端實時複制,這樣現有中心存儲中的資料将全部複制到新中心的存儲中,使得資料的完整性、一緻性得到有效保障。在正式切換時,将現有生産中心的所有業務系統停運,兩中心間基于存儲的資料複制随着業務的停運也将實作資料的完全一緻,然後在新中心的 RecoverPoint 中執行“停止資料傳輸”,這樣,原有生産中心儲存在存儲中的資料全部複制到新中心的存儲中,再啟動新中心的資料庫與應用系統,同時再次啟動原生産中心的資料庫與應用系統,經過技術與業務層面的兩中心間資料的比對,比對結果證明兩中心相應系統的資料完全一緻。通過這種方式,高效地實作了生産中心的資料遷移,并且大大縮短了因生産中心遷移而導緻的業務停運時間,減少了對客戶的影響。
2、在容災系統真實切換演練中的應用
根據監管要求,商業銀行的重要業務系統每三年必須完成一次業務部門參與的真實切換演練,為滿足監管要求,該行在往年完成了除核心系統在内的其他重要系統的真實切換演練後, 2019 年拟将包含核心系統在内的多套系統進行真實切換演練,鑒于 DELL EMC 的 RecoverPoint 優越的切換功能,再借助 VERITAS 的 BCS 系統的容災管理功能,在系統切換演練日,通過 BCS 系統管理平台的“單鍵”切換功能,在數分鐘時間内,實作了核心系統在内的多套系統由生産中心向容災中心的切換,并接管了生産系統的運作,恢複了業務的正常交易。
對核心系統進行真實切換演練,并在切換後運作 24 小時,再成功回切,這在所有城商行中是為數不多的一家,該行憑着能進行包含核心系統在内的容災實切演練,在監管部門的評級中獲得了很好的評價,為該行赢得了可觀的社會效益。
3、曆史資料追溯及生産資料緊急恢複
基于 DELL EMC 的 RecoverPoint 的存儲資料複制實作了資料的 CRR (連續遠端複制),并且根據資料的重要程度設定了數天至一個月的保護視窗期限,這樣在容災中心可以實作将資料恢複至保護視窗時間内的任一時間點,利用該功能就可以追查生産環境中已過往的資料,或者将生産環境誤删除的資料進行快速找回與恢複。如 2019 年的某一日,在對某重要系統行資料清理時,因操作不當,誤删除了部分重要資料,導緻該重要系統及相關聯系統的部分交易不能正常進行,由于備份不能做到實時進行,是以在生産環境中已無法恢複誤删除的資料,此時借助 RecoverPoint 對資料的 CRR 複制保護功能,通過在容災中心将該系統的存儲複制資料復原至誤操作前的時間點,再在容災中心啟動該重要系統的資料庫,很容易地就找回了誤删除的資料,将誤删除的資料恢複至生産環境後,很快就恢複了該重要系統的相應業務。
另外,還經常利用 RecoverPoint 的 CRR 功能,在容災中心復原核心系統的資料庫,追尋生産中心中無法查找的異常資料,為解決生産中心的某些問題提供了重要保障。
(二)VPLEX在存儲資料遷移的應用
DELL EMC 存儲虛拟化 VPLEX 解決方案用于在金融行業資料中心内、跨資料中心及在資料中心之間進行資訊虛拟化、通路、共享和遷移。它是世界上第一個同時提供本地聯合和分布式聯合的平台。
使用 VPLEX 實作無感覺的存儲間資料遷移
如某銀行生産中心使用的 DELL EMC VMAX100K 存儲由于剩餘容量的不足,同時為了有效縮短核心系統的批處理時間,拟在生産中心購入 DELL EMC 的全閃存儲 VMAX250F ,并将運作在 VMAX100K 中的核心系統資料遷移至全閃存儲 VMAX250F 中,要求不能停止核心系統的運作,即不中斷業務。
為了滿足該需求,該行的系統管理人員巧妙利用了 DELL EMC 的 VPLXE 的 Local Mirror (本地鏡像)功能,将 VMAX250F 存儲也由 VPLEX 進行管理,然後在 VMAX250F 中也劃分出與 VMAX100K 相同的 LUN ,再将兩存儲中相應的 LUN 進行 Local Mirror , Mirror 完成後,再将 VMAX100K 的 LUN 解綁出來,這樣就在核心主機系統無感覺的情況下将 VMAX100K 存儲中的核心系統資料整體地遷移至 VMAX250F 中,實作了無中止業務運作情況下的資料遷移。在将将核心系統資料遷移至全閃存存儲後,有效提升了批處理的效率,縮短了批處理的時長,減少了批處理對業務的影響。
對于其他需遷移的系統資料,也采用了相同的資料遷移方式。這個應用實踐凸現了 VPLEX 在資料中心内基于存儲間的資料遷移的優越性,并給資料遷移工作帶來極大的便利性,同時, VPLEX 不僅支援同構存儲間的資料遷移,而且還支援異構存儲間的資料遷移,具有很好的相容性與橫向擴充性。
基于 VPLEX+RecoverPoint 架構技術,在多家中小銀行的核心系統雙活及容災建設中有着廣泛的使用案例,并且某些銀行開始了跨中心全雙活建設的嘗試。相信在以後的資料中心建設中,随着生産中心與容災中心的通訊鍊路的延遲時間越來越小、穩定性越來越高,該銀行也會進行該方面的嘗試,欲進行跨中心雙活建設的嘗試,首先需将現用的 VPLEX Local 更新至 VPLEX METRO ,以實作存儲的跨中心雙活,在此基礎上,再采用 ORACLE 資料庫的 Extend RAC 的部署方案,真正實作跨中心的應用雙活。
六、實踐總結
VPLEX 是一款非常适合跨資料中心通路的存儲硬體産品,可用于資料中心所有存儲資源( EMC 及第三方存儲)提供內建的通路,甚至還可實作跨中心存儲資源的內建通路。 RecoverPoint 也是容災系統建設中的一款重要常用的技術産品,不僅可用于一對一的資料複制模式中,而且還可用于一對二甚至一對多的資料複制模式中,特别适合于多中心間的容災資料複制。
基于 VPLEX+RecoverPoint 架構技術,在多家中小銀行的核心系統雙活及容災建設中有着廣泛的使用案例,對于核心系統使用 ORCALE 資料庫的某些銀行,通過 VPLEX 平台開始了跨中心全雙活建設的嘗試,相信在以後的資料中心建設中,在確定生産中心與容災中心的通訊鍊路的穩定性、延遲性得到可靠保障的情況下,大多中小銀行可能都會邁入跨中心雙活建設的嘗試行列。但根據 VPLEX 的技術特點,對于采用 VPLEX Local 産品建設的資料中心,不能進行跨中心雙活的建設,首先需将現用的 VPLEX Local 更新至 VPLEX METRO ,以實作存儲的跨中心雙活,在此基礎上,再配合 ORACLE 資料庫的 Extend RAC 技術的部署方案,可實作跨中心的全雙活應用。