伺服器RAID磁盤壞道修複實戰

上周線上監控系統nagios發送了一條報警警告短信，内容大體是磁盤陣列錯誤

于是乎登陸報警伺服器使磁盤陣列檢測工具進行了詳細的檢查，報告顯示

Media Error Count :2

既然是警告也就不是特别嚴重的錯誤，經過與戴爾工程師的确認，是磁盤出現了壞道，由于是圖檔伺服器且有備份，暫時沒有去機房處理。

過了兩天又出現了另一台MySQL資料庫伺服器也發出了同樣的警報，可怕的是通過檢測報告的

Media Error Count :24

Other Error Count：2

看樣子伺服器在今年是硬體故障高發期啊，Dell伺服器如果不是由廠家進貨的話，如果你是維護的人員可就要當心了。

我說的什麼意思你懂得！

于是發郵件和總監和開發經理進行溝通，郵件中說了故障的詳細情況，并且給出了目前的緊急解決措施（其中圖檔伺服器做了檔案的異機備份，資料庫伺服器由于是主從結構，這個不必太擔心，切每天都有備份計劃本地和異地）有一點伺服器的磁盤是支援熱插拔的，也就是說不用停機進行磁盤的更換是沒有問題的，但是為了安全平穩經過溝通一緻認為在晚上比較合适（其實這完全是沒信心導緻的，白天處理其實影響不大，可能就是會導緻IO負載高一些），避開了業務高峰和通路高峰，這樣給我們解決問題提供了充足的時間。

最讓我放心的是伺服器的陣列配置是通過4塊磁盤做的RAID5+hot spare 這樣的配置有一個很大的好處就是：如果正常的RAID5中的三塊磁盤有任何一塊損壞了，RAID陣列暫時是安全的

如果配置了熱備盤，那麼熱備盤會在RAID陣列中某塊磁盤算壞的時候進行替補，RAID陣列重建。當損壞的磁盤更換後。熱備盤會識别到，然後将自身的資料與新替換的磁盤進行資料同步。當資料同步完成之後就會恢複到原來的角色-熱備盤。好神奇啊：）

知道了陣列的工作原理也就不用擔心了，第二天晚上按照事先計劃好的方案進行

首先進行重要檔案的手工備份以保持備份的最新，圖檔，資料庫等備份到異地Ok

然後按照預先的計劃，拔下故障磁盤，立即插入新的磁盤，這個時候，新插入磁盤會閃爍幾秒鐘，這個過程就是主機闆識别的過程，然後訓示一直處于靜止狀态。

這個時候第四塊硬碟也就是熱備盤的資料讀寫燈狂閃，你應該猜到了，熱備已經檢測到有磁盤掉線了，然後就自動加入RAID進行重建，300G的容量大概重建完成用了30分鐘的時間

為了驗證我的想法，我把圖檔伺服器進行了重新開機然後進入到BIOS裡面的RAID卡配置工具裡面進行檢視，這個時候顯示的是熱備盤參與陣列進行重建，而替換的新磁盤狀态是READY

等了大約30分鐘後，RAID重建完成。替換的新磁盤的狀态馬上就變成了 replacing 。這個過程大概同樣需要30分鐘左右。

在系統中進行檢測磁盤的狀态是 cpoyback。

最後正常的狀态是熱備盤的角色恢複成熱備模式，陣列完成重建，正常工作。

進入系統重新檢測錯誤消失了

注：以上說道的在系統中檢測的具體工具是：

/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll

本文轉自andylhz 51CTO部落格，原文連結：http://blog.51cto.com/andylhz2009/1348992，如需轉載請自行聯系原作者

伺服器RAID磁盤壞道修複實戰

繼續閱讀

set define off關閉替代變量功能

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

詳解STM32單片機的堆棧

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述