天天看點

大資料和隐私:政府必須選擇!(下)

大資料和隐私:政府必須選擇!(下)

我們正生活在一個個人最私密的資訊被大企業踩在腳下的世界,技術可以把我們從中拯救出來嗎?一個研究隐私推動技術發展的課題組表示,可以。

在不洩露個人隐私的情況下進行資料分析,這是我們的目标,其背後的核心技術,是能從加密資料中計算出有用成果的運算法則。正常情況下,加密資料原則上是完全随機的。傳統上,如果任何資訊能從這樣的資料中提取出來,這将違背加密的意義。但新技術解放了這種絕對的随機性,令人可以檢索資料,計算總和,或者在加密值基礎上做更加複雜的計算。

格爾德瓦瑟(goldwasser)稱這樣做的目旳是提取資訊但不用看到本來的資料。比如,我們能不能确定一張照片中是否有任何人的面貌特征與資料庫中的嫌疑人面貌比對,同時不識别這張照片中其他無辜人員的面貌;我們能否從所有股票持有人的投資組合中發現金融動蕩的證據,同時無需知道任何具體持有人購買了什麼股票?

尼古拉.澤爾多元奇(nickolai zeldovich)介紹了他的cryptdb研究,谷歌使用它在bigquery中進行加密檢索。cryptdb確定任何值在同一領域任何地方出現時,都由同一個加密值代表,并且也支援某些聚合函數。這意味着,你可以檢索一個領域裡值的總和,并在無需檢視任何單獨值的情況下,得到正确的答案。你可以選擇不同層次的保護,每一層對應不同程度的安全功能。

麻省理工學院教授維諾德.瓦庫恩塔納坦(vinod vaikuntanathan)介紹了同态加密法。同态加密可以從加密資料中制造一個加密結果,允許使用者無需檢視任何輸入資料,就可以得到這樣的結果。這是本次講座中所介紹的幾個前沿概念之一。雖然同态加密的概念1979年就曾被提出,但直到2009年,才有人想出如何将其付諸實際,而一些切實可行的實作(viable implementations),如helib和hcrypt,直到近期才出現。

講座中大部分發言者幻想的是“差别隐私保護”——源自隐私保護正式定義的非直覺術語:通過查詢所得的結果,不論是否是源資料,本質上都将是相同的。當差分隐私保護發揮作用後,就沒有人能夠再次識别你的記錄,甚至都不知道你是否存在于資料庫中,不管他們掌握了多少關于你的前期知識。另一個相關術語是“合成資料集”,是指提供被随機噪音攪亂的資料集的做法。這些資料集都經過周密的設計,令查詢可以得到正确的答案(比如,“有多少成員是男性、吸煙者,但沒有患上癌症?),但沒有一行資料會被對應到某個真實的個人。

微軟研究院著名科學家、差别隐私保護創始人之一辛西娅.德沃克(cynthia dwork),介紹了哈佛教授薩利爾.瓦德罕(salil vadhan)令之更充實的差别隐私保護概要。薩利爾指出,這樣的資料庫讓隐私專家不必準許每一個資料外洩,因為,即使一個使用者掌握了某個人的特别資訊,他也無法據此再識别這個人了。

這種安全的資料庫查詢提供了另一層面的保護:檢查人們提出的具體查詢。瓦庫恩塔納坦指出,同态加密會輔以一個功能性認證伺服器配合使用。這種認證伺服器相當于接受使用者查詢的中介者。它将通過認證的方式,確定使用者有權送出某一特殊查詢,之後才在資料庫中執行這一查詢。

這些技術目前所面臨的威脅是,以送出衆多查詢來瓦解保護隐私的可能,(執行操作的人)很可能在不同資料集中進行查詢,令針對某一特定人的查詢被分散開來。其他挑戰還包括:

Ø 這些技術要依賴足夠大的資料集來隐藏個人的差異。資料規模越大,掩蓋個人差異所需引入的噪音也就越小。與此相反,小型資料集無法很好地保護隐私。

Ø 這些技術無法保護一個群體的權益。

Ø 這些技術旨在隐藏個人,是以無法被執法機關用于定位資料庫中的具體人。

Ø 使用這些技術将需要對基于現行加密法而制定的法律法規,進行相應調整。

技術律師丹尼爾.維茨納(daniel weitzner)在總結該課題小組的發言時,描述了推動可歸責性資訊的技術,即通過計算監控來判斷如何使用資料,以及對資料的使用是否符合法律法規。

實作資訊可歸責所需步驟如下:

² 首先,一條法律或法規必須以某一程式可以解讀的“政策語言”呈現。

² 該程式必須浏覽資料使用相關操作記錄,并對照上述政策語言檢查每一條記錄。

² 最後,該程式必須以使用者了解得了的方式提供結果。

維茨納指出,大部分使用者希望做正确的事情,并遵守法律,是以上述資訊應該協助他們做到這一點。

在這個方面的相關挑戰包括,如何使一個政策語言足以闡明法律的要求,而又不會令計算變得太過複雜。該語言也必須允許不完全和不一緻性出現,因為法律并不是總要提供完整的答案。

當天的最後一個座談小組提出了資料挖掘中一些有趣、引人深思的模拟案例。有座談組成員否定了限制資料收集的可能性,但呼籲使用這些資料要有更大透明性。我們應該知道哪些資料被收集了,以及誰收集了這些資料。一名小組成員提及了德博拉.埃斯特林(deborah estrin),她曾呼籲企業允許使用者接觸“關于自己的資料”。定期清除資料也能保護到我們,并且可行性很強,因為舊的資料在新環境中,通常毫無用處。

維茨納寄希望于法律前沿。他指出,當奧巴馬總統宣布審查備受批評的愛國者法案第215節時,他發出了一個微妙的資訊--- 暗示第四修正案将得到更多關注。羅斯表示,有關中繼資料力量的發現,證明現在已經到了加強法律保護,迫使執法過程及法官,把中繼資料當成資料來對待的時刻。

隐私與尊嚴

在我看來,維茨納通過為讨論設基本原則确立了自己會議組織者的角色。他認為,隐私意味着隻讓特定的人來處理資料,但其他人不具有該權利。

我認為這一聲明是在對法庭關于“隐私的期望”(expectations of privacy)這個測試作出的糟糕判決提出抗議。根據美國法律原則,我們無法對政府擷取我們的電子郵件資訊或我們與誰通了電話的資料,提出任何限制。這就像有人得知一個女人受到襲擊後表示,“她着裝的方式(有問題),這是她自找的。”我承認,開放資料可以提供精彩而革新的發現和應用。我們不想生活在一個人們每次使用資料都要申請獲得準許的國度,但我們的确需要為公衆提供途徑,表達它們對自身資料安全的擔憂。

資料要是能有像kickstarter或indiegogo那樣的平台,一定會很棒。在這個平台上企業尋求的不是資金,而是我們的資料。不過,通過這種方式,企業就無法像之前通過浏覽推特或購買資料集那樣,想簽多少使用者就簽多少使用者。看來資料使用已經無可避免地成為政策要解決的問題了,無論由誰來确定或管理它。也許後續的研讨會能進一步拓展讨論的範圍,幫助我們為未來十年的資料發展奠定基礎。

原文釋出時間為:2014-05-16

本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号