天天看點

以備萬一:建立資料中心關機程式

一份資料中心關機檢查表能夠幫助it團隊在關閉電源和損失全部有價值資料之前,集中進行備份、測試以及系統驗證等事項。 盡管政策和流程是現代it的關鍵,但每當需求提升時,資料中心管理者往往來不及關閉裝置。需求就像接近中的暴風雨那樣富有戲劇性,也可能市政電網更新那樣司空見慣。

但是,企業準備和響應設施關閉的方法可以鼓勵或避免成本上的災難。

一份精心構思和經過測試的資料中心關機程式在業務連續性規劃中起着至關重要的作用。它定義了遷移或關閉應用程式、保護有價值的資料、關閉實體系統的最佳流程,然後晚些時候再成功地重新啟動它們。讓我們在一份基礎的關機文檔中考慮主要元素。

以備萬一:建立資料中心關機程式

驗證和更新系統文檔

每份資料中心關機程式都是最終啟動的前奏,是以在維護期間結束前,适當的準備是確定成功重新啟動的關鍵。建立一個全面的(或者至少是目前可行的)文檔集,擷取每個系統的容量、作業系統和應用程式配置,特别注意在重新啟動時可能發生或意外更改的任何内容。有很多工具支援建立這個文檔集,并且最現代的配置管理和執行工具可以擷取和報告系統狀态。不要忘記擷取或記錄任何網絡裝置或存儲陣列的配置。

管理依賴關系

不同公司和裝置之間的實際依賴關系差别很大,是以it規劃者需要決定啟動序列,包括網絡裝置、存儲陣列、dns伺服器、備份伺服器以及排程器。一旦所有必要的伺服器、存儲、網絡和關鍵服務,如dns等恢複線上,啟動序列可以移動以重新開機應用程式,如資料庫,緊接着是依賴的應用程式,如公司銷售系統。然後,啟動如公司店面網站這樣依賴于這些應用程式的任意流程。

在準備過程中,還要識别和了解資料中心内的各種不同的依賴關系。記錄依賴關系幫助it人員以适當的順序重新啟動系統、服務和應用程式,以避免中斷以及損失啟動時間。例如,在啟動存儲陣列之前,不希望啟動其所依賴的伺服器。

執行并驗證備份

備份對任何資料中心都是一個重要的過程,但可靠的備份在計劃設施停運之前是至關重要的。在關機開始前完成并驗證任何定期備份,并手動備份沒有定期備份計劃的系統,或在關機之前設定充足的恢複點。

傳統的備份方法可能會嘗試擷取每個伺服器的作業系統狀态以及單獨的資料備份,如san上的資料。虛拟化資料中心可以選擇更近的虛拟機感覺備份,如快照和遠端複制。正确的備份不存在某一單一的方法或措施,流程與底層工具必須适合自己的資料中心和業務需求——但關鍵在于要確定所有内容都已備份,同時測試這些備份以驗證他們是完整并且可恢複的。

如果準備時間有限,建議将時間集中在關鍵任務的備份上。然而,任何系統或資料未備份将使應用程式和業務存在風險。

檢查并驗證系統硬體

第三步是準備一份資料中心關機檢查表,檢查硬體狀态并确定任何硬體故障。現代系統管理工具可以生成電子郵件或郵件系統的錯誤報告,将事件記錄到日志檔案并提供跟蹤事件的全面和實時的儀表闆。但并非所有的事件都能夠立即解決。例如,raid 6組中的raid 5磁盤可能會出現問題,并被重寫到另一個備用磁盤上,但在技術人員完成替換和重建出現問題的磁盤之前需要一些時間。類似的問題還發生可能遷移或重新開機虛拟機工作負載從伺服器到其他可用系統的上時,然而由于尚未被處理,困擾系統可能仍然存在問題。

錯誤日志和儀表闆的審查無法修複這些問題,但這能夠在關機之前暴露相關問題,提醒it人員問題并不是由停機或重新開機所引起的。it人員可以做出明智的決定,以處理關機之前的未決事件,或至少確定未決的問題不會影響重新啟動。

按照正确的順序關閉系統

一般來說,一份成功的資料中心關閉程式始于it環境的外圍,并逐漸向内展開。公司可能會首先登出和關閉最終使用者,關閉如web伺服器等應用程式以及exchange等服務,緊接着關閉資料庫和中間件。虛拟化環境可能默許和關閉如虛拟機或vms等虛拟執行個體,其次是如vmware的vcenter或microsoft system center等管理工具。這時it團隊才應關閉實體伺服器。而一旦伺服器關閉,it團隊可以關閉存儲和網絡裝置。it團隊在確定不間斷電源系統、螢幕、電源配置設定單元和其它輔助裝置正常工作後便圓滿結束關機任務。

恢複及驗證系統

當計劃的停機結束時,it團隊可以實施重新啟動過程。理想情況下,重新啟動将是關機的完全相反的過程,但過程并非總是如此。重新啟動往往仔細進行每一步的設施電源再配置設定,防止巨大的電流沖擊,以及可能觸發的斷路器和損壞裝置。每一主要步驟還涉及一些驗證或測試,以確定在執行下一個啟動步驟之前,裝置或軟體保持正常運作。

例如,在嘗試啟動任何存儲陣列之前,打開網絡裝置并驗證其是否已正常啟動。存儲陣列啟動完成後,檢查可能出現問題的磁盤、有問題的磁盤組以及其他可能出現的問題。

本文作者:佚名

來源:51cto