天天看點

麻省理工為大資料護航,保障私人隐私不受侵犯

麻省理工為大資料護航,保障私人隐私不受侵犯

點選标題下「大資料文摘」可快捷關注

在很多方面,“大資料”和“加密”是對立的,前者收集、存儲和分析資訊,以此來揭示對學者、法律實施和企業有用的規律;而後者的目标是窺探隐藏的資料。這個議題(tension)是本周的一個由白宮科技政策辦公室和麻省理工共同舉辦的會議的核心,這次會議有來自學術界、政界和商界的許多專家人士出席,他們探讨了加密技術以及其它以隐私為導向的技術,可以保護大資料所涉及的資訊。

麻省理工計算機科學與人工智能實驗室(csail)的shafi goldwasser教授在座談小組中說到,加密功能是必須要走的路。她還補充道,其餘的選擇比如匿名的資料記錄并非有效。如今,在社交網絡和其它的公共網站上,可以免費獲得大量關于個人的資料,任何一個想要做壞事的人都可以從任意數量的線上資源通過交叉引用來建立關于他們的目标的輪廓(profile)。

一名來自麻省理工學院casil的副教授在周一的“隐私增強技術”座談小組中談道,如果資料隻是簡單地被存儲起來,那麼加密就可以非常完美地工作。而當你真的需要處理和分析被存儲起來的資料時,問題就出現了。然後他補充說,這也就是為什麼現在需要一個實用性的處理加密資料的系統。

這種實際的努力通常是指所謂的“同态”加密,這使得它可以在不先對加密資料解密時而執行對加密資料的計算。20世紀70年代末,研究者一直強調完全同态加密是可能的,所謂的完全同态加密是指,在加密過程中,可以對資訊以任意種方式進行切片或切塊,而同時不顯示實際的資料。這種系統可能對雲計算特别有利,因其提供了一種分析資訊的方法,這種方法對資訊提供者來說有最小的隐私風險。

然而,實際上,計算機科學家在對加密資料進行更多語義操作上,還沒有開發出方法。ibm聲稱,2009年計算機科學家craig gentry已經開發出一個實用的且完全同态的系統,但批評者說,這項技術在實際的雲計算的應用中太過于複雜、速度緩慢且不實用。ibm已為gentry的成果申請了專利且繼續開發完善。目前正在努力開發中,如果沒有完全同态的系統,那麼可以用其它的創新的方法來處理加密資料。

其中一個這樣的項目就是cryptdb,這個系統通過将請求資料的軟體和存儲加密資料的資料庫之間的放置一個代理伺服器,來保證對加密資料的分析。這個代理使用旨在比較和分析加密資訊的算法,在某些情況下,代理需要去除不同的加密層來更好的分析資料,但是這種想法就是不會将資料完全的加密成為純文字。盡管cryptdb 隻能進行有限種類的查詢,谷歌是該技術的一大支援者,并使用它在其基于雲計算的、搜尋大量資料集的bigquery服務中提供加密查詢。增加一個額外的裝置,比如在搜尋和檢索過程中的代理伺服器,通常會減慢速度,但是zeldovich 和他的同僚表示他們正在為解決這個問題而努力着。

麻省理工的小組成員還提出了不依賴于加密的安全措施,例如,有差異的隐私是一種替代的匿名資料。哈佛的salil vadhan 教授說,這種方法使用一個自動化的資料管理者,它可以在提供給資料請求者有用的資訊的同時,保護資料集中個人隐私。正如2012年12月份的科學美國人網站上文章所指出的,差異化的私人資料釋出算法允許研究人員提問關于有敏感資訊資料庫的任何問題,同時提供經過模糊化處理的答案,是以,實際上不會暴露任何私人資料,即使某人是排在資料庫中的首位也不會被暴露。

另一種選擇就是在收集、存儲和分析資料的軟體中直接為工程師們編寫隐私政策的要求。麻省理工一位首要研究科學家daniel weitzner說,寫入這樣的“責任系統”可以自動的分析對資料的一個特定的運用是否違反了法律,他還補充說,通過類比,我們可以在全世界範圍内以一個較高的公衆信任度運作經濟,我們這樣做是因為我們一套有适用于一緻方式的一緻性的規則。

周一的會議起源于pres,奧巴馬在今年早些時候呼籲要對大資料對美國人民的生活以及與政府之間的關系進行全面的審查。奧巴馬任命白宮顧問john podesta 來上司這項審查過程,這項過程将會從現在開始持續幾個月,并得出一個期望會影響關于大資料的政策、資金和研究的報告。

<b>原文釋出時間為:2014-03-16</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>