天天看點

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

1. 故障描述

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

2. 資料備份與修複

故障發生後使用者方工程師與我公司聯系,經過詳細咨詢,了解到故障比較嚴重,必須把raid-5磁盤陣列帶到我公司進行檢測,檢測raid-5的每塊成員盤是實體故障(磁頭損壞或者盤片劃傷)還是邏輯故障。由于情況緊急,工程師在接到原盤以後,立即着手準備檢測。對能識别的好盤用連接配接到北亞鏡像伺服器上使用winhex做扇區級鏡像,同時對不能識别的壞盤進行檢測。

首先将壞盤連接配接到外部的sas擴充卡上,加電後通過硬碟工作聲音判斷硬碟電機能夠起轉,但是磁頭沒有進行尋道操作,于是嘗試把硬碟pcb分離下來對hda元件氧化部分進行清潔操作,将pcb還原後故障依舊。于是和客戶溝通使用6号熱備盤的好pcb替換到故障盤上進行嘗試性修複,再将故障盤pcb上的rom晶片替換到6号盤的好pcb上面後硬碟工作時起轉和磁頭尋道聲音都正常,但是在尋道結束後,有明顯的敲盤聲音,于是判斷有可能磁頭損壞。在和使用者溝通後嘗試使用6号熱備盤中的好磁頭對故障盤進行替換操作以讀取資料。在無塵室對故障盤進行開盤更換磁頭操作後,将故障盤連接配接到專業硬碟維修工作上進行檢測,發現故障盤已經不能識别,資料無法讀取。

因為使用者有兩塊故障盤,之前嘗試修複的都是其中一塊,再次和客戶溝通嘗試對另一塊故障盤進行修複操作。和先前的故障盤一樣,這塊盤的故障依舊是磁頭損壞,因為使用者的hp oem盤價格昂貴,于是嘗試在網上購買st原廠的相同型号硬碟進行磁頭更換。這塊硬碟的磁頭更換完成後,裝置能夠正常識别硬碟,于是将故障盤所有扇區完整鏡像到一塊相同容量的備份盤中。

3.重組raid-5步驟

【判斷起始扇區】所有硬碟都鏡像好後就可以重組了,用winhex打開9塊盤(熱備盤不需要加進去重組),先把鏡像檔案解析成磁盤。可以看到這9塊盤的0扇區都有“55 aa”标志,如圖1所示。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖1

查找結果如圖2所示,0x01c2h處表示該分區的類型,這裡顯示“05”,代表這是一個擴充分區。是以從0扇區看這是一個不正常的mbr分區結構。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖2

按圖1方式繼續往下找,分别在9号盤和8号盤找到了“55 aa”的标志。9号盤查詢結果如圖3所示。這是一個正常的mbr分區,其0x01c6處數值代表指向的下一個扇區為gpt的頭部。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖3

8号盤查詢結果如圖4所示。其0x01c6處數值代表指向下一個扇區。但是下一個扇區很明顯不是gpt的頭部。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖4

由此可以确定9号盤是第一塊盤,8号盤可能是最後一塊盤。gpt分區所在扇區起始于172032扇區,是以初步确定lun的起始扇區是172032扇區。

【判斷條帶(stripe)大小】條帶也稱塊,它是raid處理資料的基本單元。不同的raid其條帶大小有所不同。raid-5的1個條帶組中有1個校驗區,1個校驗區的大小等于1個條帶的大小,根據這一點,針對這個raid-5案例做分析。如果對vmfs的檔案系統不熟悉,可以通過比較法确定條帶大小。如某一條帶組中的校驗區跟這一條帶組中的非校驗區可能相差的很明顯,通過winhex檢視并做對比,就可以找到條帶大小。本案例判斷出一個條帶是1024個扇區。

【判斷raid-5成員盤盤序】按照1024扇區分割,使一個記錄為一個條帶的大小,如圖5所示。并且9塊盤跳到同一記錄283123。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖5

當9塊盤都定位到同一位置時,通過對比可以判斷校驗區的走向,繼而判斷整個raid-5的走向。之前已經判斷出9号盤是第一塊盤了,把9号盤放在第一個位置,接着就可以判斷走向了,結果如圖6所示(drive9是第4塊盤)。确定raid-5為左走向,盤序為9,2,3,4,10,1,7,8,5。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖6

前面内容初步确定了lun的起始扇區是172032扇區。用winhex跳到172032扇區,觀察各硬碟實際情況。如果172032扇區是lun的起始扇區,那麼這個扇區所屬條帶中的5号盤應該是校驗區,但是此條帶中卻顯示8号盤是檢驗區,根據本案例raid-5的左走向,5号盤的校驗區應該在172032-1024=171008扇區,即上一個條帶。跳轉到171008扇區,發現校驗區為5号盤。是以可以确定lun的起始扇區為171008扇區。

【重組raid-5】使用專業恢複工具按照确定的盤序組好,添加進去,如圖7所示。選擇raid-5,stripe size 512kb,左異步。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖7

點選build進行重組。組好後,由于資料從1024*8=8192個扇區開始,若專業恢複工具沒有跳轉到此扇區的功能,那麼剛組好的raid必須和一個檔案再進行一次build重組操作。raid的起始扇區(start sectors)選擇8192,這個檔案可以任意選擇起始扇區和大小大小(count sectors),如圖8和圖9所示,圖10是組好的raid-5。

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖8

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖9

raid5因兩塊硬碟掉線導緻的資料丢失恢複過程分享

圖10

4.移交資料

整個raid-5就重建好後,由我公司商務聯系使用者方驗收資料,使用者方确定資料沒問題,簽訂完驗收合同後,完整的raid-5資料即可移交。移交時根據使用者方要求把資料移交到使用者方帶來的新盤上。恢複完的資料保留在我公司伺服器上3天,之後資料自動被系統銷毀。

繼續閱讀