資料恢複故障描述:
某研究院 DELL 磁盤陣列崩潰,内置15塊1TB硬碟搭建的RAID5陣列。一開始有一塊硬碟離線,在更換新硬碟進行同步的過程中,第二塊磁盤訓示燈報警,同步失敗,陣列無法正常工作。
故障初步檢測:
存儲媒體實體狀态:最先離線的硬碟通路速度極其緩慢,第二塊離線的磁盤有少量壞扇區,其他磁盤無明顯實體問題。
存儲媒體邏輯狀況:整個陣列隻包含一個卷組,該卷組占用陣列全部空間;并且該卷組隻有一個起始位置為0扇區的XFS裸分區。
資料恢複故障分析:
RAID5陣列架構在設計上隻支援一塊磁盤的錯誤備援功能,當第二塊磁盤離線後陣列便無法正常工作。
根據使用者描述可知,整個陣列的崩潰主要由第二塊磁盤造成。是以第二塊磁盤的處理是此次恢複的關鍵
資料恢複過程:
1、對所有硬碟做隻讀鏡像的備份,單獨備份第二塊離線的硬碟,備份過程中略過壞扇區。
2、對15塊硬碟鏡像檔案進行異或測試,全部通過,無明顯錯誤。
3、計算第二塊硬碟損壞扇區位置的資料,并将其寫入鏡像檔案。
4、在備份過程中同時分析原RAID組成結構,建構虛拟RAID環境。
5、驗證RAID結構是否正确。
6、将第二塊磁盤的鏡像備份到新硬碟,并将其強制上線,更換第一塊磁盤,并對其進行同步。(注意:在操作之前要對所有硬碟進行備份)
7、拷貝資料。
資料恢複結論:
因為異或測試完全通過,是以表明該存儲發生故障後沒有新資料寫入,或結構改動。
是以可以根據其他幾塊好硬碟計算出壞硬碟對應位置的資料。
恢複完成後,目錄結構完整,重要文檔全部完好。FSCK無任何錯誤提示,客戶認可所恢複的資料,恢複成功。