今天,歐洲“史上最嚴”的資料保護條例——通用資料保護條例(The EU General Data Protection Regulation,GDPR)生效。
GDPR有多嚴格?對于違規收集個人資訊的網際網路公司,最高可罰款2000萬歐元或全球營業額的4%。
這個數字看上去沒什麼概念。舉個例子,微軟2017年收入 900億美元,4%就是36億美元;亞馬遜2017年的收入為1779億美元,若罰款4%就是70億美元。
對大公司罰再多的款看上去也跟開發者無關,畢竟又罰不到開發者身上。
那就錯了。
在今年初,華盛頓大學人工智能專家Pedro Domingos教授的發推特:GDPR要求算法有可解釋性,這讓深度學習成了違法行為!

當時這條推特就引起了恐慌,引發各種律師出來進行解讀。
最新的消息是,在ICAN咨詢公司的GDPR傳遞經理(Delivery Manager)說,GDPR不會停止機器學習和深度學習,也不會成為它們的危險。
看上去松了口氣,但對AI産業界來講,GDPR帶來的影響才剛剛開始。
學習的“大敵”:你給我解釋解釋可解釋
Domingos教授認為“深度學習違法”,是因為GDPR中的第13至15條規定,公司有義務提供對個人算法決策的詳細解釋,或關于算法如何作出決定的一般資訊——這是争論的焦點。
很多人對Domingos教授的話感到擔憂:GDPR是否真的需要機器學習算法的解釋?
首先應該區分一下“解釋”的範圍:
全局解釋(Global explanation):機器學習的算法是如何工作的(這對于深度學習等複雜方法來說可能非常困難)。
局部解釋(Local explanation):影響特定人員的某個特定決策的因素有哪些(比較容易)。已經有一些算法,如LIME:Local Interpretable Model-Agnostic Explanations,它可以解釋任何機器學習分類器的預測。
例如,如果一個人的抵押貸款被拒,TA是否應該知道是哪些因素促成了這一決定?一方面,如果你被算法拒絕,你想知道為什麼,并有機會上訴。另一方面,足夠的解釋可能會使決策邊界被反向設計,并允許潛在的邪惡行為者對系統進行博弈。在很多情況下這是非常不可取的(例如安全應用)。
歐盟律師、牛津大學人工智能和機器人技術法律與倫理研究員Sandra Wachter博士認為,GDPR要求資料控制器實施适當的措施來保障資料主體的權利自由和合法權益。而第15條意味着一種更普遍的監督形式,而不是對某一特定決定作出解釋的權利。
說起來有點繞,直白點的意思是:
在GDPR中,解釋的權利不具有法律限制力,但可以自願提供。
Sandra Wachter博士還認為,GDPR很可能隻向個人提供關于自動決策和系統功能存在的資訊,但是沒有關于決策基本原理的解釋。事實上,在整個GDPR中,“解釋權”隻在第71章的規定中提到過一次,而這一規定缺乏建立獨立權利的法律權力。
資料研究公司MediaGamma聯合創始人、CEO Rael Cline認為,深度學習僅僅是一種使用大量資料(标記或未标記)的算法。由于其有效性與資料的數量和品質以及這些資料集的危害程度有關,在最壞的情況下,GDPR可能影響算法的準确性并限制其商業價值。
“使用未經消費者同意的資料在GDPR下是非法的,但深度學習的方法不違法。值得注意的是,在許多用例中,GDPR的影響非常小(例如,工廠的資料是由機器生成的,而不是終端使用者的)。”
ICAN咨詢公司GDPR傳遞經理Can Huzmeli也說,GDPR不會成為機器學習和深度學習的危險。
“GDPR關注的是作為系統輸入的資料,以及作為處理結果共享資料的人。”Huzmeli說。“隻要你的資料處理方式在隐私方面是安全的,你就可以使用任何算法。”
在這種情況下,隻要你有輸入的合法依據,也不非法共享算法的輸出,那麼就是安全的。
Huzmeli也說,這确實給機器學習系統帶來了額外的負擔,因為它們通常使用爬蟲來收集資料。但是,他們已經使用過濾器來清理資料。是以,GDPR中添加的唯一額外一項規定是在資料集結束之前過濾敏感資料。
“GDPR正将必要的意識引入到生态系統中,并通過提醒公司在隐私領域承擔多大的責任來引導它們。”
Sandra Wachter博士也認為,基于人工智能的系統往往是不透明的“黑盒子”,難以仔細檢查。随着我們越來越多的經濟、社會和公民互動——從信貸市場和健康保險應用到招聘和刑事司法系統——都是通過算法進行的,人們對技術背後缺乏透明度的擔憂越來越多,對如何做出決定的了解很少。
“我們需要适當的保護措施來確定正在做出的關于我們的決定實際上是公正和準确的。”
應對“史上最嚴”條例,企業應關注9大要點
之是以被稱為“史上最嚴”資料保護條例,因為GDPR規定,對違規收集個人資訊、沒有保障資料安全的網際網路公司,最高可罰款2000萬歐元或全球營業額的4%(以較高者為準)。
舉例來說,亞馬遜2017年的收入為1779億美元,如果亞馬遜非法收集使用者資料,那麼罰款2000萬歐元就太少了,應該是年收入的4%,即70億美元。百度2017年的利潤是28.1億美元,對亞馬遜的罰款相當于是2.5個百度。
罰款隻是極端情況,GDPR對AI公司的影響遠比罰款複雜的多,總結下來有以下九大影響:
1. 要求公司手工審查重要的算法決策增加了AI的整體成本。
在GDPR中,最直接針對AI使用的是第22條,即要求公司必須讓人類審查某些算法的決策。這一限制大大增加了人工成本,阻礙AI的使用——開發AI的一個主要動機就是自動化,如果由人類來完成的話将會更慢、更昂貴、更難以完成。
2. 知情權可能導緻降低AI的準确性。
GDPR的第13至15條規定,公司有義務提供對個人算法決策的詳細解釋,或關于算法如何作出決定的一般資訊。前者可能破壞算法的準确性,甚至适得其反,導緻不公平的決策。因為在算法決策中準确性和透明度之間存在權衡。
GDPR規定,資料控制者必須以清楚、簡單、明了的方式向個人說明其個人資料是如何被收集處理的。可以想見的是,目前企業普遍應用的隐私政策必須進行大幅改革,才能滿足合規要求。如果涉及自動化的資料處理,包括資料畫像活動,則需要提供基本的算法邏輯以及針對個人的運算結果。
3. 被遺忘權可能會破壞AI系統。
第17(1)條中的“被遺忘權”(right to erasure)也可能損害AI。所有使用無監督機器學習的AI系統都被要求“記住”它們用來自我訓練的所有資料,以維持從那些資料中得到的規則。但是,清楚這些資料可能導緻AI的準确率降低,甚至完全失效。
4. 禁止重新利用資料将限制AI的創新。
GDPR第6條規定,除了首次收集資料之外的任何其他目的都禁止使用資料,是以企業難以利用資料進行創新。
5. 模糊的規則可能阻止公司使用去識别資料(de-identified data)。
雖然GDPR允許使用去識别的資料,但缺乏明确的去識别标準,這可能削弱公司對資料進行去識别的動力。
6. GDPR的複雜性會提高使用AI的成本。
GDPR是一項非常複雜的法規,可能難以遵循。開發或使用AI的公司需要有專門的人員和技術來確定它們符合GDPR,這将提高使用AI的成本。
7. GDPR增加了使用AI的企業面臨的監管風險。
8. 資料本地化的要求提高了AI成本。
GDPR第5條概述了與個人資料處理相關的原則,對歐盟以外的個人資料流動有嚴格的控制,例如要求企業必須使用歐盟國家的資料中心。這減少了雲服務提供商之間的競争,但增加了資料處理的成本。
9. “資料可攜權”将加劇服務提供商的競争。
“個人資料可攜權”(第20條)是指使用者可以無障礙地将其個人資料從一個資訊服務提供者處轉移至另一個資訊服務提供者。例如,Facebook的使用者可以将其賬号中的照片以及其他資料轉移至其他社交網絡服務提供商。該權利不僅适用于社交網絡服務,還包括雲計算、網絡服務、手機應用等自動資料處理系統。
AI公司是怎麼應對的?
GDPR對AI産業界的影響重大,受該條例管轄的不僅僅是傳統意義上的網際網路公司或AI公司,哪怕其從事的業務并非狹隘上的網際網路服務,隻要涉及了使用者資料,也在GDPR管轄範圍之内。
以下是将适用于歐洲使用者的一些關鍵的GDPR要求:
公司必須建立允許使用者檢視他們存儲的個人資訊的工具。
公司必須允許使用者删除、糾正或移動他們的資料。
公司必須在72小時内将資料洩露通知有關部門。
公司必須獲得肯定同意或證明他們有一個收集使用者資料的“合法依據”。
在GDPR制定過程中,一些公司就已經開始準備應對措施。
微軟
微軟的副首席法律顧問Julie Brill在一篇官方部落格中透露,微軟已經為GDPR項目投入了1600多名工程師,他們将為全球客戶提供正在為歐洲建設的符合GDPR的工具,微軟的客戶可以檢視、删除和移動他們的個人資料。
亞馬遜
3月底,亞馬遜宣布AWS已經為GDPR做好準備。該公司解釋說:“AWS服務使您能夠以您需要的方式來實施您自己的安全措施,以遵守GDPR。”
紮克伯格5月22日在歐洲議會聽證會中表示,Facebook已經為GDPR做好準備,并且“很大一部分”使用者已經被提示更新隐私設定。奇怪的是,Facebook在這個關頭在歐洲啟用了人臉識别認證。
Facebook還将美國、加拿大和歐盟國之外的約15億使用者的注冊地從都柏林移至美國。據路透社報道,這一舉動意味着非洲、亞洲、澳洲和拉丁美洲的使用者不受GDPR的影響。Facebook表示,它正在向世界各地的所有人提供隐私工具,但具體的隐私政策在各個國家不一樣。
Apple
早在2011年釋出的iOS 5,蘋果就在其裝置之間發送的iMessage中添加了端到端加密。與Facebook和谷歌不同,蘋果公司不依賴于廣告賺錢。
對于GDPR,蘋果已更新其隐私條款并推出了新的使用者頁面。歐洲的使用者現在可以下載下傳蘋果公司對其收集的所有資料。這些資料由照片、Apple Pay,聯系人等服務收集。使用者下載下傳的個人資料以壓縮檔案夾的形式出現,其中包含可重複使用的CSV和JSON檔案。
蘋果還加入了暫時停用帳戶的功能。停用後,Apple服務将停止,蘋果公司還将停止為其機器學習和AI系統使用客戶資料。這些功能将在未來幾個月内推廣到全球的所有帳戶。
谷歌CEO Sundar Pichai不久前表示:“我們的大部分廣告業務都來自搜尋,我們依賴非常有限的資訊——基本上就是關鍵詞——來顯示相關廣告或産品。” 他補充說,他認為GDPR對于網際網路使用者來說基本上是件好事。
Twitter在GDPR生效之前更新了服務條款和隐私政策。Twitter在官方部落格中解釋道:“在該日或該日之後使用我們的服務,您将同意這些修訂。”
但Twitter沒有清楚地說明更新的内容,隻說更新“關注我們為您提供的有關您的個人資料的控制措施,以及Twitter如何公開分享您的資料”。由于GDPR,Twitter還關閉了Roku,Android TV和Xbox版的Twitter應用。
Rael Cline創辦的MediaGamma公司使用人工智能做出實時決策,他們的産品之一是幫助廣告商根據使用者的興趣為相關的使用者投放相關廣告。“我們必須做出一些改變,以確定能遵守GDPR,做法包括限制我們持有授權的資料的時間,以及確定我們可以在客戶要求的情況下删除特定使用者的所有記錄。”Rael Cline說。
同時,Rael Cline也認為,GDPR給人們提供了一個利用人工智能填補空白的機會。例如,在線上廣告行業中,随着同意(企業新隐私條款)的使用者數量的減少,我們可以應用人工智能來對這些已同意的使用者的行為進行模組化,然後根據共享屬性找到相似的使用者,這被稱為“lookalike”。
原文釋出時間為:2018-05-25
本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。
原文連結:
【深度學習不是犯罪】歐盟祭出最嚴資料保護法:專家解讀 GDPR