《大資料原理：複雜資訊的準備、共享和分析》一一2.9　資料清洗

2021-11-09 21:39:05

2.9　資料清洗

資料清洗有時候被看作去辨別化的同義詞，事實上，應該了解為一個起于去辨別化過程結束時的過程。資料清洗會将那些資料記錄裡不希望保留的資訊移除，包括個人資訊和其他與資料記錄含義不直接相關的資訊。例如，在醫院記錄的案例裡，資料清洗應當清洗掉病人的主治醫生姓名、醫院或醫療機構名稱、位址、看病日期和其他不合适的、不合法的、不相關的或者存在潛在危險的資訊。

關于醫療資料記錄，有個說法，“‘最小化必要’分享資料”33（見術語表，minimal necessary），是指在分享記錄時，隻需要分享最少量的必要資訊，其他與資料分析師的應用目的不直接相關的資訊均不分享。資料清洗過程給予資料管理人員一個斷開資料記錄自身資訊之間的聯結關系和舍棄資料分析師不需要的資訊的機會。

資料清洗的方法很多，大部分都要求資料管理人員制作出一個不應該包含在分享記錄中的異常清單，如城市、州、郵編、人名等。清洗應用程式周遊資料記錄，提取不必要資訊。清洗的結果是獲得“幹淨”的資料，而不是消除它。但這類方法并不能生成完美清洗的資料集。在大資料資源裡，資料管理人員基本上不可能提前獲知每個不想要的資料條目，并把它添加到異常清單中。沒有人這麼聰明。

然而，有一個方法可以實作準确無誤地清洗資料。首先，建立一個可包含在清洗後的、去辨別化後的資料集中的資料清單（通常是單詞和短語的形式）；接着，删除不在此清單中的其他資料，剩下的就是清洗後的資料。這種方法是一種逆向清洗方法，資料集中的任何資料都将被删除，除非它是被允許存在的“異常”。

上面的這種方法運算速度很快，可生産無錯誤的、去辨別化的、清洗過的資料輸出19,35,36。下面給出一個執行個體：

逆向清洗方法首先要有一個允許的詞條清單。生成這個清單的一個簡單方法是在術語表中篩選出那些專業詞彙，例如，一個生物物種綜合清單不會有日期、郵編等資訊。我曾經發表的一個算法，實作了從标準術語表中自動收集雙詞短語，并形成一個允許的成對詞清單，短語數量大約為20萬19。算法的處理速度很快，而且不會因為清單變大而降低速度。

《大資料原理：複雜資訊的準備、共享和分析》一一2.9　資料清洗

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希

《大資料原理：複雜資訊的準備、共享和分析》一一2.9 資料清洗

繼續閱讀

《大資料原理：複雜資訊的準備、共享和分析》一一2.9　資料清洗