天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一2.9 資料清洗

2.9 資料清洗

資料清洗有時候被看作去辨別化的同義詞,事實上,應該了解為一個起于去辨別化過程結束時的過程。資料清洗會将那些資料記錄裡不希望保留的資訊移除,包括個人資訊和其他與資料記錄含義不直接相關的資訊。例如,在醫院記錄的案例裡,資料清洗應當清洗掉病人的主治醫生姓名、醫院或醫療機構名稱、位址、看病日期和其他不合适的、不合法的、不相關的或者存在潛在危險的資訊。

關于醫療資料記錄,有個說法,“‘最小化必要’分享資料”33(見術語表,minimal necessary),是指在分享記錄時,隻需要分享最少量的必要資訊,其他與資料分析師的應用目的不直接相關的資訊均不分享。資料清洗過程給予資料管理人員一個斷開資料記錄自身資訊之間的聯結關系和舍棄資料分析師不需要的資訊的機會。

資料清洗的方法很多,大部分都要求資料管理人員制作出一個不應該包含在分享記錄中的異常清單,如城市、州、郵編、人名等。清洗應用程式周遊資料記錄,提取不必要資訊。清洗的結果是獲得“幹淨”的資料,而不是消除它。但這類方法并不能生成完美清洗的資料集。在大資料資源裡,資料管理人員基本上不可能提前獲知每個不想要的資料條目,并把它添加到異常清單中。沒有人這麼聰明。

然而,有一個方法可以實作準确無誤地清洗資料。首先,建立一個可包含在清洗後的、去辨別化後的資料集中的資料清單(通常是單詞和短語的形式);接着,删除不在此清單中的其他資料,剩下的就是清洗後的資料。這種方法是一種逆向清洗方法,資料集中的任何資料都将被删除,除非它是被允許存在的“異常”。

上面的這種方法運算速度很快,可生産無錯誤的、去辨別化的、清洗過的資料輸出19,35,36。下面給出一個執行個體:

逆向清洗方法首先要有一個允許的詞條清單。生成這個清單的一個簡單方法是在術語表中篩選出那些專業詞彙,例如,一個生物物種綜合清單不會有日期、郵編等資訊。我曾經發表的一個算法,實作了從标準術語表中自動收集雙詞短語,并形成一個允許的成對詞清單,短語數量大約為20萬19。算法的處理速度很快,而且不會因為清單變大而降低速度。

繼續閱讀