伺服器資料恢複環境:
一台使用NTFS檔案系統的伺服器;
7塊硬碟組成了一組raid5磁盤陣列。
伺服器故障&初檢:
raid5磁盤陣列磁盤故障離線導緻伺服器癱瘓。使用者在處理掉線磁盤時隻添加新的硬碟rebuild,并沒有将掉線的3塊硬碟從陣列中拔掉。
硬體工程師對故障伺服器中所有硬碟進行了實體檢測,沒有發現硬碟實體故障,隻好交由伺服器資料恢複工程師對所有硬碟做全盤鏡像&分析。
北亞資料恢複——riad5資料恢複
伺服器資料恢複過程:
1、對所有硬碟鏡像備份後,伺服器資料恢複工程師分析伺服器raid結構。故障伺服器中的硬碟每512位元組多加了一個8位元組的校驗,也就是說每扇區520位元組。北亞資料恢複工程師編寫了一個小程式将8位元組的校驗去掉,友善後續的資料恢複。
2、完成磁盤轉換後開始分析RAID的結構。由于多了3塊離線盤(故障離線後沒有拔出),需要比較每塊磁盤。因為其中會有兩塊磁盤前面的一部分相同,這兩塊前面部分相同的磁盤中有一個是舊盤,舊盤資料量沒有新盤多,可以排除舊盤。
3、由于故障伺服器使用的是NTFS檔案系統,使用MFT就可以找到RAID結構。搞清楚RAID結構後發現這不是一個普通的RAID5,而是一個雙循環,無法通過正常手段重組RAID。
4、通過其他方法重組RAID後發現資料不是新的。推測可能是RAID5掉線第一塊硬碟時使用者沒有及時發現,沒有及時添加新的硬碟做rebuild,伺服器運作一段時間後又有一塊硬碟掉線了,造成整個RAID不可用。
北亞資料恢複——riad5資料恢複
5、伺服器資料恢複工程師使用窮舉+校驗的方法進行分析:假設某個磁盤掉線,踢掉該磁盤後重組RAID,不用生成全部的資料,隻生成前面幾個G的資料,然後通過檢視這個索引表的位圖資訊是否正确就可以判斷此RAID是否正确。如果索引表的位圖資訊正确,生成此RAID資料即可完成RAID的重組。
6、資料恢複完成後由使用者親自核檢,資料完整可用,本次資料恢複完成。
Tips:
1、伺服器發生故障後,切忌對伺服器進行操作;也不要随意取出硬碟,以免弄亂盤序。
2、如果需要取出硬碟,标記好硬碟的順序之後再取出。
3、伺服器陣列癱瘓後應該立即斷電,不要做同步或強制上線操作,防止資料進一步破壞。
北亞資料恢複——riad5資料恢複