天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一2.11 經驗教訓

2.11 經驗教訓

每件事以前都說過,但因為沒有人聽,是以我們隻好回到起點,一遍又一遍地重新開始。

―andre gide

習慣于使用較小的資料項目的大資料管理人員往往忽視了辨別問題。本章中描述的最重要的想法很值得重複,其中許多想法對于那些生活在大資料混亂領域之外的人來說是反直覺的和奇怪的。

1.所有的大資料資源都可以被想象為對于資料對象和資料相關事件的一個辨別符系統(即時間事務)。大資料的資料資源可以被想象為連接配接到辨別符的字元序列。

2.如果沒有一個适當的辨別系統,大資料資源就沒有價值。資源内的資料不能被信任。

3.辨別符是配置設定給一個資料對象的唯一的字母數字序列。

4.資料對象是資料的集合,它包含自我描述資訊,以及一個或多個資料值。資料對象應當與一個唯一的辨別符相關聯。

5.去辨別化是從可能的記錄裡連結到該記錄對象的公共名稱的資料記錄,并進行資訊剝離的過程。

6.去辨別化不應與剝離辨別符記錄的行為相混淆。一個去辨別化的記錄必須具有相關的辨別符,作為一個辨別的資料記錄就必須有一個辨別符。

7.沒有辨別,就不會有去辨別,也沒有重新辨別。

8.重新辨別是指将資料記錄與去辨別化的記錄相關聯的公共名稱的配置設定。重新辨別有時需要驗證一個記錄的内容,或提供所必需的一個去辨別化的資料記錄的對象的資訊。重新辨別總是需要審批和監督。

9.當一個去辨別化的資料集不包含任何唯一的記錄(即每個記錄有一個或多個附加記錄從中不能被區分開來,除了其指定的辨別符序列)時,那麼就不可能惡意揭開一個去辨別化的記錄的公共名稱。

10.資料清除器從資料記錄中删除不需要的資訊,包括個人性質的資訊,以及與資料記錄目的不直接相關的任何資訊。資料去辨別化是一個過程,其中記錄主體的公共名稱将被删除(見術語表,data cleaning,data scrubbing)。

11.速度最快的資料清除方法包括準備已證明的單詞和短語的清單,清單可以在資料記錄中被保留,并删除未核準名單中發現的每一個單詞或短語。

繼續閱讀