天天看點

重複資料删除:塊級技術VS.位元組級技術

 重複資料删除技術能夠識别重複的資料,消除備援,減少需轉移或存儲的資料的總體容量。在本文中,我将分别對這兩種技術加以評論。與塊級技術相比,位元組級删除技術對資料的檢查更加細微,精度更高,但同時需要更加了解備份流,才能完成任務。

塊級技術

塊級重複資料删除技術将資料流分割成塊,檢查資料塊,并判定之前是否碰到相同的資料塊(通常對每個資料塊執行雜湊演算法,形成數字簽名或獨特的辨別符)。如果資料塊是唯一的,就被寫入磁盤,其辨別符也存入索引中;否則,僅存入指針,指向存儲相同資料塊的原始位置。這種方法用小容量的指針替代重複的資料塊,而不是将重複資料塊再次存儲,這樣就節省了磁盤存儲空間。

塊級技術的缺點為:1)利用雜湊演算法計算獨一無二的id,可能産生錯誤;2)将唯一的id存入索引中,當索引擴大,需要磁盤i/o時,檢查過程就會變慢(除非控制索引大小,在存儲器中完成資料比較工作)。

利用雜湊演算法判斷重複資料時,散列之間的沖突可能引發錯誤。md5、sha-1等雜湊演算法都是針對檢查的資料塊,形成唯一的編碼。雖然有可能發生散列沖突和資料損壞,但幾率較小。

位元組級重複資料删除

從位元組級别上分析資料流是重複資料删除的另外一種方法。将新資料流和已存儲的資料流挨個比較位元組,能夠實作更高的精度。使用這種技術的重複資料删除産品具有一個共同點:可能之前已見過流入的資料流,是以就會檢查其是否與之前接收的資料相符。

采用位元組級技術的産品通常能“識别内容”,也就是說,供應商對備份程式的資料流執行了逆向工程,進而了解如何檢索檔案名、檔案種類、日期/時間戳記等資訊。在判斷重複資料時,這種方法能夠減少計算量。警告呢?這種方法通常在後處理階段發揮作用——備份完成後,判斷備份資料是否重複。是以,需要備份整個磁盤的資料,必須具有磁盤緩存,才能執行重複資料删除過程。而且,重複資料删除過程可能僅局限于某個備份組的備份資料流,而不是應用到整個備份組中。

完成了重複資料删除過程後,位元組級技術能收回磁盤空間。在收回空間之前,應執行一緻性檢驗,以保證删除重複資料以後,仍能滿足原始資料的目标。保留最後一次的完全備份,這樣恢複過程就不必依賴重構後的資料,加快恢複過程。

哪種方法效果最佳?

塊級和位元組級删除技術都能優化存儲容量。針對你的備份環境及其需求,核定執行删除過程的時間、位置和方法,然後再決定選擇哪種方法。核定内容還包括:參考那些與你的公司具有相似特征和需求的公司。

 作者:佚名

來源:51cto

繼續閱讀