重複資料删除：塊級技術VS.位元組級技術

2021-11-10 10:56:16

重複資料删除技術能夠識别重複的資料，消除備援，減少需轉移或存儲的資料的總體容量。在本文中，我将分别對這兩種技術加以評論。與塊級技術相比，位元組級删除技術對資料的檢查更加細微，精度更高，但同時需要更加了解備份流，才能完成任務。

塊級技術

塊級重複資料删除技術将資料流分割成塊，檢查資料塊，并判定之前是否碰到相同的資料塊（通常對每個資料塊執行雜湊演算法，形成數字簽名或獨特的辨別符）。如果資料塊是唯一的，就被寫入磁盤，其辨別符也存入索引中；否則，僅存入指針，指向存儲相同資料塊的原始位置。這種方法用小容量的指針替代重複的資料塊，而不是将重複資料塊再次存儲，這樣就節省了磁盤存儲空間。

塊級技術的缺點為：1）利用雜湊演算法計算獨一無二的id，可能産生錯誤；2）将唯一的id存入索引中，當索引擴大，需要磁盤i/o時，檢查過程就會變慢（除非控制索引大小，在存儲器中完成資料比較工作）。

利用雜湊演算法判斷重複資料時，散列之間的沖突可能引發錯誤。md5、sha-1等雜湊演算法都是針對檢查的資料塊，形成唯一的編碼。雖然有可能發生散列沖突和資料損壞，但幾率較小。

位元組級重複資料删除

從位元組級别上分析資料流是重複資料删除的另外一種方法。将新資料流和已存儲的資料流挨個比較位元組，能夠實作更高的精度。使用這種技術的重複資料删除産品具有一個共同點：可能之前已見過流入的資料流，是以就會檢查其是否與之前接收的資料相符。

采用位元組級技術的産品通常能“識别内容”，也就是說，供應商對備份程式的資料流執行了逆向工程，進而了解如何檢索檔案名、檔案種類、日期/時間戳記等資訊。在判斷重複資料時，這種方法能夠減少計算量。警告呢？這種方法通常在後處理階段發揮作用——備份完成後，判斷備份資料是否重複。是以，需要備份整個磁盤的資料，必須具有磁盤緩存，才能執行重複資料删除過程。而且，重複資料删除過程可能僅局限于某個備份組的備份資料流，而不是應用到整個備份組中。

完成了重複資料删除過程後，位元組級技術能收回磁盤空間。在收回空間之前，應執行一緻性檢驗，以保證删除重複資料以後，仍能滿足原始資料的目标。保留最後一次的完全備份，這樣恢複過程就不必依賴重構後的資料，加快恢複過程。

哪種方法效果最佳？

塊級和位元組級删除技術都能優化存儲容量。針對你的備份環境及其需求，核定執行删除過程的時間、位置和方法，然後再決定選擇哪種方法。核定内容還包括：參考那些與你的公司具有相似特征和需求的公司。

作者：佚名

來源：51cto

重複資料删除：塊級技術VS.位元組級技術

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希