定義1一個集合被定義為正确集合當且僅當集合中所有的值均正确。如果這兩個集合不可以同時都是正确集合,我們說這兩個集合之間存在沖突(Conflict)。
基于規則的修複方法依賴預定義的品質規則檢測資料之間的沖突,并希望通過
清洗引起沖突的錯誤達到解決這些沖突的目的。本文以FD/CFD為例來展示我們的方法是如何執行的。為了便于了解,給出一個運作示例。
例1如圖1(a)所示,對于給定的一個個人聯系方式資料表,每個元組不僅包含一個人的Name和Inst,還包含這個人的位址資訊如City、State、Country和Zip。我們在表中标出了錯誤資料。圖1(b)中顯示的是一組限制條件(FD/CFDs)。

但是在以下三種情況中,這些方法會做出錯誤的決定。
(3) 修複的置信度估計基于規則修複的準确率是由FD/CFD和推導中用到的值共同決定的。是以,一個修複的品質是由用于推導的值和使用的FD/CFD的置信度決定的,即
我們仍然使用FD/CFDs來發現資料之間的沖突,但在确認和修正這些沖突中的錯誤資料時,考慮将衆包加入這個過程中,以達到在一個有效的互動方式下提高修複品質的目的。需要說明的是在本文中我們暫時忽略衆包修複可能帶來的錯誤修複,在未來工作中會再考慮這個問題。
最基本的互動過程描述如下:首先設定一個品質限制條件,并根據這一品質限制對那些沖突做基于規則的修複。然後選擇一些值進行衆包修複,使更多的值能夠用被規則修複或推導。我們疊代地進行這種互動式修複,直至沒有更多的值可以被修改為止。