上周線上監控系統nagios發送了一條報警警告短信,内容大體是磁盤陣列錯誤
于是乎登陸報警伺服器使磁盤陣列檢測工具進行了詳細的檢查,報告顯示
Media Error Count :2
<a href="http://s3.51cto.com/wyfs02/M02/09/F2/wKioL1LKY2qgMjG1AADzBR07ros581.jpg" target="_blank"></a>
既然是警告也就不是特别嚴重的錯誤,經過與戴爾工程師的确認,是磁盤出現了壞道,由于是圖檔伺服器且有備份,暫時沒有去機房處理。
過了兩天又出現了另一台MySQL資料庫伺服器也發出了同樣的警報,可怕的是通過檢測報告的
Media Error Count :24
Other Error Count:2
<a href="http://s3.51cto.com/wyfs02/M00/09/F2/wKioL1LKY3zCZGETAADnGsEVC0I742.jpg" target="_blank"></a>
看樣子伺服器在今年是硬體故障高發期啊,Dell伺服器如果不是由廠家進貨的話,如果你是維護的人員可就要當心了。
我說的什麼意思你懂得!
于是發郵件和總監和開發經理進行溝通,郵件中說了故障的詳細情況,并且給出了目前的緊急解決措施(其中圖檔伺服器做了檔案的異機備份,資料庫伺服器由于是主從結構,這個不必太擔心,切每天都有備份計劃本地和異地)有一點伺服器的磁盤是支援熱插拔的,也就是說不用停機進行磁盤的更換是沒有問題的,但是為了安全平穩經過溝通一緻認為在晚上比較合适(其實這完全是沒信心導緻的,白天處理其實影響不大,可能就是會導緻IO負載高一些),避開了業務高峰和通路高峰,這樣給我們解決問題提供了充足的時間。
最讓我放心的是伺服器的陣列配置是通過4塊磁盤做的RAID5+hot spare 這樣的配置有一個很大的好處就是: 如果正常的RAID5中的三塊磁盤有任何一塊損壞了,RAID陣列暫時是安全的
如果配置了熱備盤,那麼熱備盤會在RAID陣列中某塊磁盤算壞的時候進行替補,RAID陣列重建。 當損壞的磁盤更換後。 熱備盤會識别到,然後将自身的資料與新替換的磁盤進行資料同步。當資料同步完成之後就會恢複到原來的角色-熱備盤。 好神奇啊:)
知道了陣列的工作原理也就不用擔心了,第二天晚上按照事先計劃好的方案進行
首先進行重要檔案的手工備份以保持備份的最新,圖檔,資料庫等備份到異地Ok
然後按照預先的計劃,拔下故障磁盤,立即插入新的磁盤,這個時候,新插入磁盤會閃爍幾秒鐘,這個過程就是主機闆識别的過程,然後訓示一直處于靜止狀态。
這個時候第四塊硬碟也就是熱備盤的資料讀寫燈狂閃,你應該猜到了,熱備已經檢測到有磁盤掉線了,然後就自動加入RAID進行重建,300G的容量大概重建完成用了30分鐘的時間
為了驗證我的想法,我把圖檔伺服器進行了重新開機然後進入到BIOS裡面的RAID卡配置工具裡面進行檢視,這個時候顯示的是熱備盤參與陣列進行重建,而替換的新磁盤狀态是READY
等了大約30分鐘後,RAID重建完成。 替換的新磁盤的狀态馬上就變成了 replacing 。這個過程大概同樣需要30分鐘左右。
在系統中進行檢測磁盤的狀态是 cpoyback。
最後正常的狀态是 熱備盤的角色恢複成熱備模式,陣列完成重建,正常工作。
進入系統重新檢測錯誤消失了
注:以上說道的在系統中檢測的具體工具是:
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll
<a href="http://s3.51cto.com/wyfs02/M01/09/F2/wKioL1LKY_ziQNtrAADYQdYbcLg815.jpg" target="_blank"></a>
<a href="http://s3.51cto.com/wyfs02/M00/09/F3/wKiom1LKZAnyfL1VAADoBNlS8_o638.jpg" target="_blank"></a>
本文轉自andylhz 51CTO部落格,原文連結:http://blog.51cto.com/andylhz2009/1348992,如需轉載請自行聯系原作者