天天看點

怪異的資料中心故障

資料中心裡包含有大量的it裝置,運轉系統非常複雜,經常會出現這樣那樣的故障,就算一些著名的網際網路巨頭的資料中心也無法幸免。當然,資料中心可以通過部署很多備份技術,保證在出現故障時不至于影響運作的業務。資料中心故障産生的原因多種多樣,絕大多數故障讓人很容易了解,也可以通過采取一些補救措施,避免日後再出現,而有些資料中心故障産生的原因就非常怪異,讓人二丈和尚摸不到頭腦,故障的原因都有些無厘頭,本文就來講述幾例怪異的資料中心故障。聽到導緻資料中心故障的這些原因,腦洞大開,隻能感歎資料中心故障防不勝防啊!

一聲巨響,資料中心應聲倒下

就在9月,一家羅馬尼亞銀行資料中心業務中斷了大約10個小時。資料中心在對消防系統進行測試時,打開了儲存有“煙烙盡”的鋼瓶,“煙烙盡”通過軟管和噴嘴均勻地噴灑在狹小空間,進而達到滅火功效。當氣體通過噴嘴釋放時,壓力過大,在釋放“煙烙盡”,最後發出了異常大的巨響,巨響超過了130分貝。這樣巨響引起了振動,結果聲音傳遞到存儲在資料中心硬碟的外殼,伺服器和資料儲存設備都受到了影響,破壞了裝置内部部件。這導緻銀行的信用卡交易、atm業務活動、線上銀行、電子郵件和銀行的官方網站都癱瘓掉了。我們經常抱怨資料中心機房内的噪聲太大,對人來說太吵了,對裡面的裝置又何嘗不是,這些裝置長期忍受各種裝置運作産生噪聲的影響。實際上,這些裝置本身對噪聲也是比較敏感,尤其是這種突然的巨響,很容易造成内部電子元器件的失效,是以有必要在資料中心增加一些消聲設施,人長期處在嘈雜的環境中都會煩躁,電子裝置也一樣,提供一個相對安靜的環境,有利于延長裝置的使用壽命。

一輛suv汽車引發的資料中心慘劇

2007年11月位于美國達拉斯的rackspace公司資料中心遇到了一場無妄之災,故障使其業務在數小時内陷入了癱瘓。一位大型四驅車司機,由于糖尿病病發而出現短暫昏迷,當時他正在開車,汽車一路向前直沖,并從丁字路口處撞向路邊外側的護堤。護提被撞擊後,沖向空中,并落在了rackspace公司的資料中心建築物上,恰好砸在了供電裝置上,一陣火光帶閃電之後,資料中心電力供應中斷了。此類極為罕見的外來因素所導緻的停機事故,rackspace公司為此次事故向客戶支付了350萬美元賠償金,同時還增加了客戶流失的風險。資料中心建築物可抗擊八級地震,卻沒有抵住一輛suv汽車的誤撞,确切地說還不是直接撞擊。資料中心有很多的内外通道,這些管道也一定要保護好,具有一定的抗震、抗撞、防火能力,避免遇到這樣的意外故障。

飓風吹停了資料中心發電機

2012年10月位于美國紐約曼哈頓地區的一處資料中心整套供電系統失效,原因是肆虐一時的飓風桑迪襲擊了曼哈頓。在資料中心的十八層擺放有用于持續提供電力且不至于受到洪水影響的多台備用發電機,但風暴來襲時直接灌滿了該資料中心建築的地下室,并且摧毀了應急發電機的燃油泵送系統,遭到海水浸泡的整套電路立刻失去了作用,備用發電系統失效,而十八層電力采用的是市電,當飓風來襲造成整個曼哈頓市電系統故障,資料中心主備供電均故障,造成資料中心斷電,所有應用系統無法運作。

太陽耀斑事件

在1989年太陽耀斑定向瞄準了加拿大魁北克水電電網,導緻電網電壓振蕩,造成跳閘保護裝置啟用,幾乎造成東北地區電力協調委員會(npcc)和中大西洋區議會(maac)崩潰。public service gas & electric旗下紐澤西州的一個核電站,造成發電機升壓變壓器的永久性損壞,無法提供服務。雖然強烈的太陽耀斑/日冕物質抛射比較罕見,但不可否認它對于資料中心和電網是一個毀滅性的災難。太陽耀斑是一種最劇烈的太陽活動,周期約為11年,通過高速度産生強磁場的過程中發出的帶電粒子,如果擊中地球,就會産生令人驚歎的現象,同時肆虐電力系統,如果擊中資料中心的供電系統,資料中心一定吃不消了,這屬于小機率事件,但一旦發生就是緻命的。早在1859年,曾經發生過一次太陽耀斑故障,即所謂卡林頓事件,這次太陽耀斑讓全球的電報系統都失控。太陽耀斑抛射定期發生,如果從這些太陽系列活動沖擊資料中心磁場,資料中心可能會遇到大範圍的電湧和停電。

巨響、撞擊、飓風、太陽耀斑等都給資料中心帶來了災難,平時我們很少聽到這類故障,主要是這些故障發生的機率極低,甚至讓人覺得發生這些故障非常怪異。不過小機率并不等于不會發生。我們知道,按照發生機率來講,飛機是非常安全的一種交通工具,但是每年還是會發生墜機事故,和每年數千萬次的航班數量相比,發生機率不到萬分之一,可一旦發生就是造成嚴重的人員傷亡,這讓我們不得不對這些小機率事件非常謹慎。一旦這樣的故障發生到某一個資料中心身上,也許這個資料中心就會從地球上消失。這些導緻故障的根源很多時候還是可以通過優化加以避免,比如:對于撞擊,我們可以對資料中心外圍和建築組樓頂進行加強,避免撞擊給資料中心帶來傷害;對于巨響,我們可以在資料中心機房外部增加消聲裝置,增加建築物牆體厚度,這樣不僅可以防止噪聲進入資料中心機房内部,對裝置造成傷害,還可以避免内部裝置運作産生的噪聲向外傳遞,以免擾民。是以,針對這些怪異的資料中心故障原因,通過采用一些正常的防護措施,就可以避免。

本文轉自d1net(轉載)

繼續閱讀