AI 時代的隐私保護：企業收集使用者資料，隻靠“匿名”是不夠的

當蘋果在 wwdc 2016 的主題演講中，講到“差分隐私 (differential privacy)”這個密碼學專有名詞的時候，隻有少數人意識到，蘋果又走在了時代前列。

大部分中外觀察者都認為，蘋果為人工智能時代所做的努力不夠，它依然是一家以硬體裝置為核心的公司，對于為更大規模的使用者提供服務不感興趣（例如 imessage等軟體均沒有 android 版），是以等人工智能技術得以真正嶄露頭角的時候，很可能難以追趕 google、facebook、亞馬遜和微軟。

這或許是對的。但蘋果在解決人工智能時代的隐私保護難題上，又似乎比其他科技巨頭，走得更遠。

人工智能依賴于機器學習（深度學習）算法，而機器學習又需要大規模的訓練資料，是以向使用者搜集資料比以往更加重要。

如今，當你向一家網際網路公司詢問，你們收集來的使用者資訊會不會侵犯使用者隐私的時候，行業标準答案是：

1、收集使用者資訊是必要的，這樣有助于改善産品或服務。

2、我們是匿名收集使用者資訊的，并不儲存任何使用者的身份資訊。

“匿名收集”這個答案，作為擋箭牌非常好用。外行都會被它唬住，以為匿名就意味着無法關聯到具體的某個使用者的資訊。

但是對這個行業稍有了解的人，都應該清楚，匿名并不能完全保證使用者的隐私安全。最經典的案例莫過于，netflix 曾放出“經過匿名處理的”上億條電影評分資料，“僅僅保留了每個使用者對電影的評分和評分的時間戳”，希望通過競賽的形式，找到更好的影片推薦算法。但是 2009年，德州大學的兩位研究人員，通過這些匿名資料與公開的imdb資料做對比，成功将匿名資料與具體的使用者對應了起來。netflix 不得不取消了，這項原計劃每年舉行的競賽。

蘋果想把（一定會收集使用者資訊的）科技公司在隐私保護方面的級别，提升到新的高度。而“差分隐私 (differential privacy)”，正是它找到的答案。這項密碼學前沿技術的基本原理，就是向包含個體資訊的大量資料集裡注入噪音（或者說擾動），目标是保證每個個體資訊都無法洩露，同時這個資料集的統計學資訊依然可以被外界分析。

科學家們正在研究，究竟注入多少噪音，可以實作隐私保護和資料分析的最佳平衡。

不出意外的話，蘋果将成為第一個真正大規模使用這項“差分隐私 (differential privacy)”算法的公司。但是也有學者表達了自己的擔心，他們認為這項技術前景可期，但還沒有成熟到大規模商用的時候。

也有人猜測，蘋果應該與微軟達成了某種私下協定，因為這項“差分隐私 (differential privacy)”算法的提出者，來自微軟研究院。蘋果在 wwdc 上引用了一名大學教授對蘋果使用該算法的看法——“使用這項算法說明蘋果很有遠見，蘋果在隐私保護方面領先其他科技公司”，而這名教授是《the algorithmic foundations of differential privacy》（差分隐私的算法基礎）一書的兩個作者之一，另一位就是微軟的研究員。

一個可能的情況是，研究這項算法的大公司不止蘋果一家，隻不過它是最先表明積極态度的，至少在輿論方面占得先機。

總結一下。讀完本文，你隻需要知道“匿名收集資訊”并不能回答網際網路公司如何保護使用者隐私的問題，就可以了。就像亞馬遜ceo貝佐斯在 re/code 大會上講的那樣，保護隐私是這個時代的難題。隻不過，願意給出新解法的公司，卻少得可憐。

本文轉自d1net（轉載）

AI 時代的隐私保護：企業收集使用者資料，隻靠“匿名”是不夠的

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希