天天看點

資料中心業務中斷 多與營運流程有關

tiepoint-bkm工程裝置公司營運解決方案總監david boston表示,三分之二的資料中心業務中斷與其營運流程有關,而不是基礎設施系統。

如今,許多關鍵行業在發展和營運過程中投入了大量的時間和資源進行教育訓練和教育,如核工業,軍事和民用航空,甚至是司機,而資料中心行業卻沒有這麼多的時間和資源進行教育訓練。

tiepoint-bkm工程裝置公司營運解決方案總監david boston表示,三分之二的資料中心業務中斷與其營運流程有關,而不是基礎設施系統。他說,"大多數人都意識到流程導緻了大部分的停機時間,但很少有人主動全面解決這些問題。這對我們的行業來說有點獨特。" boston計劃在7月12日在芝加哥藝術學院的資料中心世界會議上闡述防止資料中心中斷的政策。

他建議,資料中心管理層經常被迫更換老化的基礎設施系統群組件,或引起重複問題的系統,并且習慣于增加系統容量以适應負載增長。在基礎設施方面,冷卻系統中的機械故障是發生最多的故障,但電氣系統故障卻導緻更多的停機事件,因為在這麼短的時間很難作出迅速的反應。

他說,"這些努力都需要得到外界的工程支援,是以管理所需要的時間通常隻限于項目的确定和監督。"雖然開發過程與資料中心中斷的最常見的原因可能是更加費時的管理,但确實需要花費大量的時間。以下是boston推薦的三大問題和最佳實踐:

設施的從業人員數量和輪班與目标的關鍵操作正常運作時間未能比對。

最佳實踐:量化進階it管理人員的正常運作時間目标,確定人員比對。boston建議每班輪班兩人,其他人員負責教育訓練和程式項目。如果需要最大的正常運作時間,則隻能在偶然的停機事件可接受的情況下才使用全天值班。

2.沒有具體的教育訓練計劃,包括設施開始營運前的專業練習時間。

最佳實踐:指派一個團隊成員作為教育訓練項目的管理人員,并及時協調所有團隊成員的每月應急反應教育訓練。通過實踐操作來輪換每個團隊成員,在維護活動之前隔離基礎架構系統,并在預防性維護月曆上标注活動,将系統恢複到服務狀态。

3.不了解具體程式不足。

最佳實踐:指派一個團隊成員作為程式的所有者,随時随地開發(或與顧問合作開發)幾乎每個關鍵設施所需的100到200個關鍵程式。每一個都确認其技術準确性和驗證,所有的程式都要讓團隊中最不知情的人都清楚地了解。

boston評論道:"我一直懷疑,許多公司起初都不願意花費時間實施上述方案。

組織絕對應該在關鍵業務方面實施這些流程,而這些流程是對組織的收入或信譽造成負面影響的流程。然而,對于非關鍵業務,他建議可以采取快速恢複的方法。

本文轉自d1net(轉載)

繼續閱讀