1 簡介
容災是企業資料管理中的一個重要環節,容災備份系統要保證災難發生時系統能夠做到最快恢複和最小損失,RTO和RPO是衡量容災系統的兩個重要名額,通俗來講,是這兩個名額可以描述為業務連續性目标及資料一緻性目标 。
2 名詞解釋
RTO(Recovery Time Objective):
即恢複時間目标,主要指當發生災難或緊急事件時,業務系統所能容忍的停止服務的最長時間,也就是從災難發生到業務系統恢複服務功能所需要的最短時間周期。
RPO(Recovery Point Objective):
即資料恢複點目标,主要指當發生災難或緊急事件時,業務系統所能容忍的資料丢失量。例如每天淩晨1:00進行資料備份,那麼如果今天發生了當機事件,資料可以恢複到的最糟糕的增備時間點(RPO)就是昨天的淩晨1:00。
3 SHARE78國際标準七級災難備份方案
要建設容災系統,就必須提出相應 的設計名額,以此作為衡量和選擇容災解決方案的參數。目前,國際上通用的容災系統的評審标準為Share 78,主要包括以下内容。
3.1 主要等級劃分參考:
1 備份/恢複的範圍
2 災難恢複計劃的狀态
3 應用站點與災難備份站點之間的距離
4 應用站點與災難備份站點之間是如何互相連接配接的
5 資料是怎樣在兩個站點之間傳送的
6 允許有多少資料被丢失
7 怎樣保證更新的資料在災難備份站點被更新
8 災難備份站點可以開始災難備份工作的能力
3.2 等級劃分内容:
0級:無異地備份
0等級容災方案資料僅在本地進行備份,沒有在異地備份資料,未制定災難恢複計劃。這種方式是成本最低的災難恢複解決方案,但不具備真正災難恢複能力。
在這種容災方案中,最常用的是備份管理軟體加上錄音帶機,可以是手工加載錄音帶機或自動加載錄音帶機。它是所有容災方案的基礎,從個人使用者到企業級使用者都廣泛采用了這種方案。其特點是使用者投資較少,技術實作簡單。缺點是一旦本地發生毀滅性災難,将丢失全部的本地備份資料,業務無法恢複。
1級:實作異地備份
第1級容災方案是将關鍵資料備份到本地錄音帶媒體上,然後送往異地儲存,但異地沒有可用的備份中心、備份資料處理系統和備份網絡通信系統,未制定災難恢複計劃。災難發生後,使用新的主機,利用異地資料備份媒體(錄音帶)将資料恢複起來。
這種方案成本較低,運用本地備份管理軟體,可以在本地發生毀滅性災難後,恢複從異地運送過來的備份資料到本地,進行業務恢複。但難以管理,即很難知道什麼資料在什麼地方,恢複時間長短依賴于何時硬體平台能夠被提供和準備好。以前被許多進行關鍵業務生産的大企業所廣泛采用,作為異地容災的手段。目前,這一等級方案在許多中小網站和中小企業使用者中采用較多。對于要求快速進行業務恢複和海量資料恢複的使用者,這種方案是不能夠被接受的。
2級:熱備份站點備份
第2級容災方案是将關鍵資料進行備份并存放到異地,制定有相應災難恢複計劃,具有熱備份能力的站點災難恢複。一旦發生災難,利用熱備份主機系統将資料恢複。它與第1級容災方案的差別在于異地有一個熱備份站點,該站點有主機系統,平時利用異地的備份管理軟體将運送到異地的資料備份媒體(錄音帶)上的資料備份到主機系統。當災難發生時可以快速接管應用,恢複生産。
由于有了熱備中心,使用者投資會增加,相應的管理人員要增加。技術實作簡單,利用異地的熱備份系統,可以在本地發生毀滅性災難後,快速進行業務恢複。但這種容災方案由于備份媒體是采用交通運輸方式送往異地,異地熱備中心儲存的資料是上一次備份的資料,可能會有幾天甚至幾周的資料丢失。這對于關鍵資料的容災是不能容忍的。
3級:線上資料恢複
第3級容災方案是通過網絡将關鍵資料進行備份并存放至異地,制定有相應災難恢複計劃,有備份中心,并配備部分資料處理系統及網絡通信系統。該等級方案特點是用電子資料傳輸取代交通工具傳輸備份資料,進而提高了災難恢複的速度。利用異地的備份管理軟體将通過網絡傳送到異地的資料備份到主機系統。一旦災難發生,需要的關鍵資料通過網絡可迅速恢複,通過網絡切換,關鍵應用恢複時間可降低到一天或小時級。這一等級方案由于備份站點要保持持續運作,對網絡的要求較高,是以成本相應有所增加。
4級:定時資料備份
第4級容災方案是在第3級容災方案的基礎上,利用備份管理軟體自動通過通信網絡将部分關鍵資料定時備份至異地,并制定相應的災難恢複計劃。一旦災難發生,利用備份中心已有資源及異地備份資料恢複關鍵業務系統運作。
這一等級方案特點是備份資料是采用自動化的備份管理軟體備份到異地,異地熱備中心儲存的資料是定時備份的資料,根據備份政策的不同,資料的丢失與恢複時間達到天或小時級。由于對備份管理軟體裝置和網絡裝置的要求較高,是以投入成本也會增加。但由于該級别備份的特點,業務恢複時間和資料的丢失量還不能滿足關鍵行業對關鍵資料容災的要求。
5級:實時資料備份
第5級容災方案在前面幾個級别的基礎上使用了硬體的鏡像技術和軟體的資料複制技術,也就是說,可以實作在應用站點與備份站點的資料都被更新。資料在兩個站點之間互相鏡像,由遠端異步送出來同步,因為關鍵應用使用了雙重線上存儲,是以在災難發生時,僅僅很小部分的資料被丢失,恢複的時間被降低到了分鐘級或秒級。由于對存儲系統和資料複制軟體的要求較高,所需成本也大大增加。
這一等級的方案由于既能保證不影響目前交易的進行,又能實時複制交易産生的資料到異地,是以這一層次的方案是目前應用最廣泛的一類,正因為如此,許多廠商都有基于自己産品的容災解決方案。
6級:零資料丢失
第6級容災方案是災難恢複中最昂貴的方式,也是速度最快的恢複方式,它是災難恢複的最進階别,利用專用的存儲網絡将關鍵資料同步鏡像至備份中心,資料不僅在本地進行确認,而且需要在異地(備份)進行确認。因為,資料是鏡像地寫到兩個站點,是以災難發生時異地容災系統保留了全部的資料,實作零資料丢失。
這一方案在本地和遠端的所有資料被更新的同時,利用了雙重線上存儲和完全的網絡切換能力,不僅保證資料的完全一緻性,而且存儲和網絡等環境具備了應用的自動切換能力。一旦發生災難,備份站點不僅有全部的資料,而且應用可以自動接管,實作零資料丢失的備份。通常在這兩個系統中的光纖裝置連接配接中還提供備援通道,以備工作通道出現故障時及時接替工作,當然由于對存儲系統和存儲系統專用網絡的要求很高,使用者的投資巨大。采取這種容災方式的使用者主要是資金實力較為雄厚的大型企業和電信級企業。但在實際應用過程中,由于完全同步的方式對生産系統的運作效率會産生很大影響,是以适用于生産交易較少或非實時交易的關鍵資料系統,目前采用該級别容災方案的使用者還很少。
這七個級别的災備方案中,随着災備目标不同,方案及成本也有不同。恢複時間要求越短,恢複資料丢失越少,成本就越高。合适的災備方案應是基于“風險和成本相應平衡”的。企業應該基于風險分析的基礎上,選擇業務需求目标和成本相平衡的災備方案。
3.3 業界share78成本與選型模型

4 技術選型及成本權衡
作為銀行,除開展自身業務之外,更多資料來自上下級銀行間的财務彙兌與結算。站在管理者的位置上,一旦災難發生,最重要的是在盡可能短的時間内排除障礙,恢複業務,保證系統做到連續運作。是以,從這個角度出發,銀行容許系統停滞的時間應當越短越好。選擇 RTO 剛好合适。
但是,RTO 對成本要求太高,與回報似乎不成正比。企業資金不可能無限制地投入到一個災備系統中。對于銀行證券這樣的聯機交易事故處理非常緊密的金融機構而言,可能每一筆、每一單、每一分錢都很重要,是以都需要恢複。RPO 顯然更為合适。
對于一個企業來講,RTO與RPO都很重要,但是最佳的方案不一定是效益最好的。RTO及RPO與方案售價有着密切的關系,然而完美的方案當然是RTO及RPO皆為零,表示當災難發生後,系統立即恢複,而且完全沒有資料丢失,可是其造價是非常昂貴的,而且也不一定有這個必要。是以,最佳方案必需在RTO,RPO,維護及價錢多方面,都能達緻平衡。尤其是中小企業,在資源緊拙的情況,應先好好了解對RTO及RPO的要求,然後再看看價錢,那就比較容易找到,适合企業的方案了
5 總結
進行容災系統設計時,必須根據使用者業務系統的使用情況,并綜合考慮地理環境、網絡條件、投資規模、業務系統長遠發展規劃等各種因素,制定合理、可行的容災系統設計名額。
****************************************************************************************
原文位址: http://blog.csdn.net/jesseyoung/article/details/41801269
部落格首頁: http://blog.csdn.net/jesseyoung
****************************************************************************************