天天看點

《大資料原理:複雜資訊的準備、共享和分析》一一2.10 重辨別

2.10 重辨別

對于科學家而言,去辨別化有兩個目的:

1.保護資料的保密性和個人隐私。

2.删除可能影響實驗的資訊。

保密性和隐私問題一直是以人為主題的資料需要面對的問題,而且分析資料時的實驗誤差總會存在,故而去辨別化不可逆轉勢在必行。

科研誠信往往會與不可逆轉的去辨別化相沖突。有時多個實驗樣本資料會混在一起,有時會弄錯樣本資料源。而一旦樣本資料出現差錯,那麼一些科學發現也許就不成立,需要被駁回37-41。除此之外,資料有時也會因為不合理的收集過程導緻科研誠信受到質疑。舉個例子,插反電極生成的心電圖可能會帶來虛假的、誤導性的結果。上面這些是無意的科研不誠信,但有的時候,一些不誠實的科學家會故意捏造或破壞原始樣本資料,以達到他個人的實驗意圖。無論何種原因造成的資料出錯,收回已發表的論文很重要42,43。為了保證科研誠信,在某些情況下有必要對去辨別化的資料重新進行辨別。

在一些情況下,去辨別化使得資料分析師無法幫助那些保密性已受到保護的個人。假設你正在利用收集來的去辨別化資料進行分析,并發現病人的某種基因标記代表了一種疾病,如果早期進行治療可以治愈;或者你發現了一種新的生物标記,可以決定哪些病人适合手術哪些不适合。這時,你不得不聯系資料庫裡的病人,告知他們可以挽救他們生命的資訊。然而,去辨別化了的資料不會向你提供病人的身份資訊,而且沒人知道。

在嚴格控制的環境下,去辨別化記錄可以被重新辨別。重辨別通常是通過委托第三方來實作,第三方保有一份保密清單,這份清單将去辨別化的記錄與個人資訊進行了一一對應。顯然,隻有在大資料資源保留了資料記錄辨別符與對應的去辨別化記錄辨別符的連接配接關系,重辨別才能夠實作。為去辨別化的記錄配置設定公共名稱需要在嚴格的監督下進行。資料管理人員必須建立一個協定,描述獲準重辨別的過程。重辨別有可能導緻保密性受到破壞,人類受到傷害,是以,如何管理重辨別過程将是大資料管理人員最沉重的責任之一。

繼續閱讀