天天看點

【伺服器資料恢複】raid5熱備盤同步失敗的資料恢複案例

作者:北亞資料恢複中心

伺服器資料恢複環境:

華為s系列伺服器;

24塊硬碟組成一組raid5磁盤陣列,其中包含1塊熱備盤。

【伺服器資料恢複】raid5熱備盤同步失敗的資料恢複案例

北亞企安資料恢複——oracle資料庫資料恢複

伺服器故障&檢測:

伺服器工作狀态下raid5中有一塊硬碟離線,熱備盤激活替換離線硬碟并開始進行資料同步,在同步的過程中該raid5陣列内的另一塊硬碟由于未知原因離線,上層應用崩潰,伺服器内的資料丢失。

拿到故障伺服器内的所有硬碟後,硬體工程師對所有硬碟進行實體故障檢測,發現除了其中的一塊硬碟外,其他硬碟均可以正常讀取無實體故障。

伺服器資料恢複過程:

1、将故障伺服器内所有硬碟以隻讀方式做完整的鏡像備份,後續資料分析和資料恢複操作都基于鏡像檔案進行,避免對原始資料造成二次破壞。

2、由于華為s系列伺服器的控制器的磁盤檢測政策非常嚴格。對于沒有實體故障但性能不穩定的硬碟,控制器會将其視作壞盤踢出陣列。之前檢測到隻有一塊硬碟存在實體故障,是以故障伺服器中掉線的兩塊盤中另外一塊是因為讀寫不穩定被視作壞盤踢出而掉線。

3、對每一塊硬碟底層進行分析,擷取到raid陣列的條帶大小、資料走向、硬碟順序、熱備盤、資料庫的分布規律等raid相關資訊。根據分析擷取到的raid陣列資訊重組raid。

4、根據分析擷取到的陣列相關資訊,使用北亞企安自主研發的工具重組原始raid5陣列。

5、在重組過程中發現有一塊硬碟内的資料在同步時候被破壞。由于在資料恢複過程中需要将資料被損壞的硬碟排除,于是資料恢複工程師對所有硬碟進行了底層資料結構的對比。對比發現其中一塊硬碟在相同條帶上的資料與其他硬碟明顯不同。

6、使用北亞自主研發的raid校驗程式對該硬碟進行條帶校驗,确認該硬碟資料已經在同步的時候被破壞。排除這塊硬碟後重組raid5磁盤陣列。

7、完成raid陣列重組後,分析lun在raid中的配置設定情況及資料塊map。隻要能将map完整提取出來,就可以進行解析并提取lun資料。

8、北亞企安資料恢複工程師編寫檔案系統解析程式對陣列内檔案系統進行解析并導出資料庫檔案。

9、由資料庫工程師對提取的資料庫檔案進行校驗和修複。資料庫工程師對資料庫檔案進行驗證後發現部分資料庫檔案及日志檔案異常,表空間記憶體在大量壞塊、所有控制檔案被破壞,undotbs02丢失,資料庫工程師對資料庫檔案進行了修複。

修複過程:

【伺服器資料恢複】raid5熱備盤同步失敗的資料恢複案例

北亞企安資料恢複——oracle資料庫資料恢複

【伺服器資料恢複】raid5熱備盤同步失敗的資料恢複案例

北亞企安資料恢複——oracle資料庫資料恢複

資料驗證:

經過資料庫工程師對資料庫檔案的修複和驗證,最終恢複出所有的資料庫檔案。伺服器資料恢複工程師将修複成功的資料庫資料導入到準備好的環境中進行驗證,所有資料正常。聯系使用者親自對資料進行驗證均無異常。本次資料恢複工作完成。

【伺服器資料恢複】raid5熱備盤同步失敗的資料恢複案例

繼續閱讀