天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一2.8 去辨別化

2.8 去辨別化

去辨別化是去除資料中可能連接配接該資料對象的公共名稱的資訊的過程。在病人記錄這個案例裡,去辨別化就是将那些會讓人聯系到病人名字的資訊從記錄中去除的過程,這樣做的目的顯而易見。事實上,還有其他資訊也需要去除,如病人的聯系位址、出生日期和社會安全号碼。在美國,病人隐私條例裡詳細讨論了病人記錄去辨別化的問題,并建議把18條記錄條目排除在去辨別化之外。33

在進一步讨論去辨別化之前,必須認識到去辨別化不是簡單地從資料對象中移除辨別符。事實上,粗暴地将資料對象裡的辨別符移除并不明智,會導緻資料對象毫無用處,因為,無論是辨別化的還是去辨別化的資料對象都需要有至少一個辨別符。正如在前面的章節中讨論的那樣,辨別符可以由單向哈希函數值代替,以保證資料記錄的唯一性。去辨別化需要移除那些可能會公開資料對象名稱的資訊,這類資訊通常指識别資訊,但也可能是那些與名稱關聯的資訊。是以,我們不要把資料對象的辨別符同資料對象中與其公共名稱關聯的資訊相混淆。

這似乎違背了我們的直覺,但辨別符與去辨別化的辨別符差别很小,在某些情況下,兩者等價。下面是雙辨別/去辨別系統可能的工作方式:

1.收集資料:“joe fergusons bank account contains $100.”

2.配置設定辨別符:“joe fergusons bank account is 7540038947134.”

3.用辨別符取代對象名稱:“7540038947134 contains $100.”

4.一直使用這個阿拉伯數字辨別符。

5.不讓任何人知道joe ferguson擁有賬号7540038947134。

辨別符/去辨別化的辨別符的雙重使用是一種可靠的技術。瑞士銀行賬戶基本上給每個人配置設定唯一的賬号(辨別符),你可以通過辨別符通路銀行賬戶,辨別符不會洩露任何銀行賬戶所有者的身份資訊,即它是去辨別化的。

辨別符的意義告訴你:遇到這個辨別符表示它指向同一個對象,而如果遇到兩個不同的辨別符那一定是指向兩個不同的對象。而辨別符自身不會包含與其公共名稱關聯的資訊。

了解去辨別化過程僅在資料記錄合理辨別化的前提下才能成功是非常重要的,沒有辨別化就談不上去辨別化。強行對辨別程度不高的臨床資訊資料集去辨別化,會導緻資料記錄出現重複、混亂和遺失等情況。

把去辨別化過程看成是響應資料分析師查詢消息的一個聯機算法最為合适,下面給出一個算法流程:

1.資料分析師提出一條大資料資源查詢請求,這個資源包含一些不可共享的敏感資訊,除非去辨別化了。

2.大資料資源收到查詢請求,檢索出記錄。

3.對檢索出的記錄進行解析,且記錄中所有敏感資訊都被删除,所謂的敏感資訊大緻包括前面提到的姓名、位址、出生日期、社會安全号碼等。

4.準備好僞辨別序列。僞辨別序列有可能由随機生成器産生,也有可能由原始辨別加密而成,又或者是通過單向雜湊演算法或其他算法生成。

5.原始記錄上被附加了一條事務記錄(即查詢請求),包括僞辨別序列、去辨別化記錄、事務發生時間以及其他任何與請求實體相關的資訊。

6.一條記錄發送給資料分析師,這條記錄由去辨別化的記錄及其唯一僞辨別符組成。

由于去辨別化的記錄及其唯一僞辨別符存儲在原始記錄中,是以,當資料分析師後續對這條記錄發出其他請求時,無需重新計算即可得到同樣的回報。這種常用的資料去辨別化方法一般用于對單個記錄或百萬條記錄的操作請求。

現在,你大概會問:“為什麼資料管理者有配置設定保密記錄的權利,即使記錄已經被去辨別化?”這就好像你告訴别人一個秘密,并告訴他不要說出去,你當然不希望有第三個人知曉這個秘密的任何内容。同樣,分享已去辨別化的機密資訊是荒誕且難以讓人接受的。

我們會在第13章和第14章中讨論大資料的合法問題和道德問題。而這裡,讀者需要知道的是,有一些易懂、簡潔的原理可以證明分享去辨別化的資料的可行性。

再看看這句話:“jules berman has a blood glucose level of 85.(jules berman的血糖水準是85。)”這可以稱得上保密記錄,因為,這句話告訴了别人jules berman的身體情況。如果隻是短語“glucose level 85”,即删除了人名,這時該短語就隻是沒有主體的資料了,與“temperature 98.6”“apples 2”“terminator 3”無異,僅是一些不屬于特定主體的原始資料。

通過将某個人或資料對象的資訊轉變為不屬于特定對象的資訊,去辨別化使得資料無害。基于此,美國法規允許無限制地使用這些無害資料進行科學研究。33,34其他一些國家也有類似規定。

繼續閱讀