天天看點

如何降低資料中心當機事件的影響

大多數人在生活或工作領域中都不希望出現連接配接中斷的情況,尤其是在以數字生活方式為主的今天,是以資料中心基礎設施變得越來越重要。對于許多消費者來說,他們希望自己的數字産品和服務能保持正常工作,是以當發生當機事件時,他們就會開始抱怨甚至投訴。

以最近的航空資料中心當機事件為例,如美國達美航空、西南航空和英國航空公司,由于一個簡單的電氣故障或不當的維修程式,導緻伺服器遭到災難性損壞,航空公司損失數億美元,數以萬計的乘客被滞留在全球各地的機場。

這些大規模的當機事件總能成為新聞頭條,而且資料中心當機事件比人們想象的更為常見。根據uptime institute調查顯示,25%的受訪企業在過去一年内都發生了資料中心當機事件,無論是在自己的資料中心還是在服務提供商的網站上。此外,90%的資料中心和it專業人士表示,他們的企業管理人員比一年前更加關注資料中心中斷事件。

然而,并不是每次當機事件與航空公司停運事件一樣具有破壞性或公開性,但是當機事件會對企業造成一定的經濟損失。根據uptime institute的調查表明,隻有60%的企業會測量停機成本來作為其業務名額,而在2017年,測量停機成本成為了所有企業都必須采取的措施。考慮到幾分鐘或幾小時的停機可能帶來的經濟損失,it專業人員和設施管理人員将會更加注重基礎設施的維護。

如何降低資料中心當機事件的影響

當然,意識到資料中心的風險與采取措施預測潛在的風險,這是兩個截然不同的問題。那麼,企業該如何做才能降低資料中心當機事件的影響呢?

效率的定義

每個資料中心管理人員都希望他們的資料中心能夠高效營運。效率是指提供給資料中心it裝置的電源和冷卻措施能夠滿足it需求且不會産生不必要的成本。從更加商業的角度來看,資料中心必須能夠在滿足業務需求的同時保持這種平衡。這意味着資料中心的基礎設施,計算能力和性能需要經常有效地擴充,以降低停機的風險。

然而,對于現在大多數的資料中心來說,缺少考慮資料中心環境變化帶來的影響,如推出的新技術,這些都沒被考慮在内。對于it團隊來說,除了知道他們部署将使用的數量,空間,網絡和電源之外 ,他們對資料中心環境的影響往往不了解甚至不關心,這是資料中心管理人員的責任,如果it配置對it的有效性産生了負面影響,那麼管理人員将會立即作出反應。問題在于it團隊和資料中心管理人員這兩個團隊是獨立運作的,許多企業已經部署了dcim技術,其目的是通過資料中心的業務來縮小資料和處理流程之間的差距。

模拟每種事件的可能性

從機架上安裝單個擋闆到将裝置的功率提高到300kw,如果能夠準确預測這中間的所有變化,那麼将會影響資料中心的彈性。這不是想象的而是實際存在的,它采取工程仿真的形式,允許資料中心設施管理人員通過建立虛拟原型,對現有設計進行故障排除,以及分析未來資料中心配置的假設場景,并且可以在離線環境中進行實驗。

這意味着當業務需求湧入時,資料中心能夠以絕對的彈性處理工作負載,或者可以減少這些要求,直到基礎設施更新完成。資料中心人員應該積極應對這種變化,這樣可以杜絕停機事件發生,或将其減輕到無害水準。

從營運連續性的角度來看,還可以模拟運作其他事件,例如,如果電源故障啟動并且由備份電池在供電,那麼任何關鍵系統能夠脫機嗎?在重新啟動電源系統時,工程師如果沒有遵循正确的協定,會對資料中心産生不利影響嗎?如果是這樣的話,怎樣才能減輕造成的損失呢?所有這些問題和更多的問題都可以通過仿真來解決,幫助資料中心管理人員建立戰略,使關鍵硬體能夠以這樣的方式進行定位,以確定其堅持到最後。

如果90%的資料中心和it專業人士說,他們的企業管理人員比一年前更擔心當機事件發生,那麼營運彈性則是it團隊和資料中心設施管理人員最應該考慮的事情,而營運彈性通過上面提到的政策和工具就可以實作。

至于其他10%的管理層,難道他們對資料中心當機事件不關心?如果他們的團隊盡了一切努力去防止當機事件發生,但結果還是發生了的時候,他們将會很快改變想法,因為他們了解這将會對公司聲譽造成多大的影響,并且這也是其業務營運的底線。

本文作者:佚名

來源:51cto

繼續閱讀