天天看點

資料中心流程之關機

盡管工作準則與操作流程對it運維十分重要,可當資料中心it人員需要對裝置進行關機時,他們通常是不做任何準備就開始關機。這種情況通常來的很快,還沒等真正反應過來,it運維人員就已經開始操作起來,在他們看來,似乎是裝置系統更新那樣輕松平常。

事實上,很多資料中心對關閉裝置都一套自己的标準程式以及響應方式,以此避免給資料中心帶來重大損失和事故。

經過精心設計與經過可靠驗證的資料中心關機流程對于保障資料中心業務的連續性以及關機中不可預見的意外狀況都能起到至關重要的保護作用。

關機操作流程定義了遷移或關閉應用程式;儲存重要資料;關閉實體系統;稍後,再成功開機(重新開機系統)。讓我們來看看在關機操作流程中都有哪些重要文檔需要我們去記錄。

1.驗證和更新系統文檔

所有資料中心關機流程都是為了最終能夠成功重新啟動系統,為此,在關閉裝置之前做足充分準備是確定關機後能夠成功重新啟動裝置系統的關鍵。

建立一個全面的(或者至少是目前可行的)關機、開機各種文檔的集合是很有必要的。這個文檔可以用來記錄每個分區的system’s volume(系統卷标),作業系統、應用程式配置,特别記錄在重新啟動後期間可能或意外被更改的内容。有很多工具都可以用來建立這個文檔,通過工具對這些文檔進行統一管理、用工具擷取、記錄系統狀态。不要忘記擷取或記錄任何一個網絡裝置或存儲陣列的配置狀态。

2.明确依賴關系

事實上,企業、組織等機構對裝置系統的依賴性是不同的,是以,it人員在制定裝置關機啟動流程時,需要考慮以下各種裝置的特性:網絡裝置、存儲陣列、dns伺服器、備份伺服器資料和排程程式等。當所有重要的裝置伺服器、存儲、網絡以及重要的服務(如dns)等重新啟動後,啟動順序(startup sequence)就會轉移到重新開機應用上,緊接着啟動獨立應用,如:企業銷售系統。

接着,再啟動與這個應用相關的所有程序,如:公司店面網站。在制定流程的過程中,要識别和了解資料中心内部各種不同的依賴關系。it人員會記錄下依賴關系進而制定合理的流程關閉、重新啟動系統、服務和應用程式,以避免系統中斷或出現故障,浪費啟動時間。如:不在啟動伺服器之前啟動依賴它的存儲陣列。

3.執行并驗證備份

備份對任何資料中心而言都是重中之重,在裝置停運之前,必須對重要資料進行備份。在裝置關機之前,驗證并完成計劃中要備份的系統,并手動備份任何系統中未預期備份的資料或在關機之前備份恢複點目标(rpo,recovery point objective)。

通常,傳統的備份方法會試圖擷取每個伺服器上的資料進行單獨備份,例如:備份san資料;可虛拟化資料中心卻可以選擇最近的vm-aware (虛拟機感覺)進行備份,如快照和遠端複制。

備份資料如果隻是通過一種方式或工具是根本無法完成的,無論選擇哪種工具備份都必須符合自身資料中心業務發展與裝置自身需要——最關鍵的是確定一切資料都已備份,同時測試、驗證這些備份是否完整并可恢複。如果時間有限,請集中将時間用于備份重要業務資料。最後提醒大家,未經備份的系統或資料都存在風險。

(備注:恢複點目标(rpo,recovery point objective)是指在因硬體、程式或通信發生故障,而導緻的計算機、系統或網絡出現故障時,必須從備份存儲中恢複以保證系統正常運作的檔案的年齡。恢複點目标在時間上是從故障發生時開始向後表示的(即到過去),它可以以秒、分鐘、小時或天來表示。它是災難恢複計劃(drp)中重要的考慮因素。

vm-aware :vm感覺存儲或虛拟化感覺存儲是在利用虛拟機(vm)的虛拟化環境中對存儲基礎設施的智能管理和監視;在vm感覺存儲環境中的關鍵因素是存儲元件與vm一起管理,而不是作為單獨管理的卷或lun(邏輯單元号)管理。)

4.檢查并驗證系統硬體

檢查硬體狀态并識别是哪部分硬體發生故障。管理工具可以将錯誤報告以郵件或資訊的方式告知it人員,将事件發生記錄到log files(日志檔案)裡或通過裝置面闆實時跟蹤記錄事件全過程。但并非被記錄的所有事件都能夠立即解決。

例如,raid 6組中的raid 5磁盤可能會出現問題,并被重寫到另一個備用磁盤上,it人員可能需要一些時間完成更換和重建故障的磁盤。比如:在将vm工作負載遷移或重新啟動到其他可用系統的伺服器;也有可能在出現類似問題時,即使檢視錯誤日志或看到面闆顯示資訊後,依舊無法立即修複這些問題,這些問題會在系統關機之前被it人員發現,提醒it人員再次确認這樣的問題會不會影響關機或重新開機。

it人員将在關機之前做出明智的決定來處理需要解決的問題,確定待決的問題不會影響重新啟動。

5.嚴格按流程關閉系統

一般來說,成功的資料中心關機流程的制定原則:始于關注it裝置的外部環境,并逐漸轉向制定裝置内部流程。關機之前有可能會先登出并關閉終端使用者,再關閉應用程式。例如:先關閉web伺服器、exchange等服務,接着再關閉資料庫和中間裝置。虛拟化環境會接着預設關閉virtual instances,例如像vms這樣的虛拟裝置,其次是諸如vmware vcenter或microsoft system center這樣的管理工具。隻有這樣, it團隊才能關閉實體伺服器。一旦伺服器關閉,it團隊才可以接下來繼續關閉存儲和網絡裝置。it團隊有可能會通過確定不間斷電源系統、螢幕、配電單元和其它輔助裝置的正常運作來關閉系統。

6.恢複并驗證系統

當停機結束時,it團隊便可以執行重新啟動流程。理想情況下,重新啟動将是與關機是完全相反的過程,但并非總是如此。重新開機系統時需要考慮到電源配置設定,需要對重新開機裝置順序進行調整安排,逐一開啟裝置,而不是一次性全部開啟,以防止導緻斷路器跳閘或對裝置的防浪湧沖擊的保護。每個主要步驟還涉及一些裝置數量的驗證或測試,以確定在執行下一個啟動步驟之前,裝置或軟體保持正常運作。

例如,在嘗試啟動任何存儲陣列之前,打開網絡裝置并驗證其是否已正常啟動。打開存儲陣列後,請檢查是否有任何故障磁盤,有問題的磁盤組和其他可能的問題。

以上文檔是在制定關機流程中必須要考慮到的部分,需要考慮到業務、裝置的不同,因地制宜對自身資料中心制定合理的、可靠的關機流程,這對于自設裝置安全性以及業務連續性都能起到重要作用。

本文轉自d1net(轉載)