天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一2.5 在辨別符中嵌入資訊:不推薦

2.5 在辨別符中嵌入資訊:不推薦

大多數辨別符不是純粹的随機數,它們通常含有一些可由熟悉辨別系統的人解釋的嵌入資訊。例如,辨別符中可以嵌入姓的前三個字母,同樣,辨別符中也可以嵌入出生年份的最後兩位數字。辨別符中常常嵌有這種經“知情人”核實的“赤裸裸”的真實資訊。例如,一個9位數社會安全号碼分為:前三位數表示區号,緊接着的兩位數表示群組編号,最後四位數表示序列号。借助社會安全号碼,人們可以根據經驗在社保編碼系統裡窺探到大量個人資訊,并且可以通過排除子序列的存在來确定是否存在數字僞造。

辨別符裡那些看似無關緊要的資訊有時候會成為發現個人隐私的重要依據。舉個例子,假設某個零售商店會給每個在店裡購物的客戶提供一個唯一編号,例如2010-3518582,這個編号表示交易是在2010年發生的。由于每個編号都是唯一的,且号碼本身對交易隻字未提,人們一般會理所當然地覺得這樣的編号不會透露任何交易資訊。

然而事實是,交易編号已經告訴你不少資訊,比如編号中的2010表明購買的年份。如果編号是2010-0000001,那麼你可以放心地說,這筆銷售交易發生在2010年第一個工作日。如果給你任意一個2010年的交易編号,可以很容易通過計算得出具體的交易日期,隻需用當年的最後一個交易編号的字尾數字除以待計算的交易編号字尾數字,再乘以365,此時得到的是自第一筆交易發生算起的交易天數,再映射到具體日期即可。

你覺得這沒什麼好說的?請考慮這種情況,總統身邊的一名重要從業人員在2005年2月15日到華盛頓特區的醫院進行了肝活檢,你想知道活檢的結果。于是你通路了相關網站,在這些網站上可以查詢到2000~2010年去辨別化的醫院病理檔案,也就是說檔案不涉及個人身份資訊,但是檔案編号是依據社保号排序的。使用前面的政策,首先收集所有與2005年2月15日相關的活檢資料,發現在這些活檢中,隻有三個肝活檢。這三個活檢,隻有一個人的性别和年齡與總統的從業人員相比對。那麼,顯然對應的報告提供了此從業人員的診斷結果。無需獲得任何個人身份資訊,發現一些非常私人的資訊是完全可以實作的。

由字母、數字構成的辨別符字元串,本不應該存在暴露患者身份資訊的危險。病人的姓名、出生日期和社會安全号碼組合而成的辨別符也可以用來竊取個人的身份。最安全的辨別符應該是不包含任何資訊的随機字元串。

繼續閱讀