天天看點

人工智能新技術——聯邦學習的前世今生(上)

導讀

聯邦學習(Federated Learning)作為人工智能的一個新分支,為機器學習的新時代打開了大門。JDD風控算法團隊将通過聯邦學習白話三部曲,為大家揭秘聯邦學習的前世今生。

本期為您解讀:

  • 聯邦學習為什麼這麼熱?
  • 聯邦學習能做什麼?
  • 三合一速成法則告訴你聯邦學習是什麼?
  • “百萬富翁”帶你揭秘如何直覺了解隐私保護技術?
  • 聯邦學習會損害模型效果嗎?

最熱門的新技術

如果投票問人工智能和大資料應用領域有什麼好玩又好用的新技術,“聯邦學習”一定是排在前列的。這項技術由谷歌在2016年首次提出,從2018年8月開始在國内快速發展和普及,截至2020年2月,有公開資料可查的聯邦學習研究或應用機關已超過百家,阿裡、微衆、京東、騰訊、華為、平安等各領域的頭部企業均在大力推進。身邊做技術和業務的朋友都在說:忽如一夜春風來,聯邦學習突然就在圈子裡傳播了,在聊天中不發表點聯邦學習的看法都不好意思。

最實用的新技術

第一個問題是,為什麼聯邦學習會突然冒出來、如此受歡迎呢?我們認為有以下幾個重要的觸發因素。

(1)在谷歌提出聯邦學習之前,歐盟就在探讨移動網際網路的隐私資料保護問題,于2016年4月通過了《通用資料保護條例》,并于2018年5月強制實施,嚴格限制了個人隐私資料的收集、傳輸、保留和處理。才過半年,谷歌即被罰款5000萬歐元,因為其收集和使用使用者資料觸犯了該條例。在中國,資料保護的法規也在不斷完善。例如,全國資訊安全标準委員會先後于2017年12月和2020年3月釋出了兩版《資訊安全技術個人資訊安全規範》,對個人資訊收集、儲存、使用作出了明确規定。大家應該還記得,在2019年10月份,幾乎每個APP都在更新使用者授權協定,令人不勝其煩,這就是因為相關法規趨嚴導緻的。國内外隐私保護法規的不斷完善,使得移動網際網路的企業決策者不得不重新規劃未來的戰略方向。這是因為移動網際網路的生态價值在于其海量的使用者資料,如果資料不能用于生産,整個行業将受到巨大損失和挫折。

(2)中國特色的市場環境促進了基于移動網際網路的數字經濟爆發式的發展,通過改善人們生産生活體驗,數字經濟獲得快速增長并達到世界領先。例如,電商服務讓我們足不出戶買到生活物資,讓購物更便捷、更省時間,特别是解決了出門難人群的采購難題;網際網路金融實作了線上快速的風險評估和金融服務,解決了廣大群眾日常急用的借款需求;移動醫療使得遠端問診技術普惠大衆,讓患者可便捷地得到專家的指點,同時也極大地縮短了挂号、繳費等“排長隊”流程的時間;個性化資訊、短視訊、直播等新媒體内容極大地豐富了娛樂生活和社交,使得歡聲笑語越來越多了。2018年我國數字經濟總量達31萬億,GDP占比達34.8%,數字經濟已成為帶動我國國民經濟發展的核心組成。數字經濟的關鍵在于資料和大資料分析技術。資料作為原料,大資料分析技術蒸餾出有價值的資訊,進而幫助使用者更快地找到需要的商品和媒體服務、為優質使用者提供低息貸款、更準确的診斷疾病。在此次應對疫情的防控保衛戰中,大資料正發揮着越來越大的作用,在科技助力下,相關部門可以盡早發現疑似病患、密切接觸者,有助于及時隔離、切斷傳染源。然而,由于上述國内外資料隐私保護法規的推出,網際網路資料分散在不同企業或者終端形成“資料孤島”,不能直接共享或者交換,是以我們急需破解資料孤島的技術。

在資料隐私安全保護需求和破解資料孤島需求的背景下,聯邦學習應時而生。它能夠實作在不洩露隐私資料的情況下實作企業間的資料融合模組化,成為解決上述問題的首選技術。如此實用的技術發展之迅速,普及之廣泛,不足為奇。

什麼是聯邦學習【三合一】

上面介紹了聯邦學習的現狀和用途,下面回答聯邦學習是什麼?與其他技術的差別在哪裡?

從技術角度看,聯邦學習是一種隐私保護的分布式機器學習技術,包括機器學習、分布式、隐私保護三個技術關鍵詞。對這三種技術的研究已有幾十年曆史,但直到近年來,它們在工業實踐中才做到真正結合并蓬勃發展。

第一個關鍵詞是機器學習,它是計算機從資料中尋找統計規律的過程,用于像人一樣解決不确定性問題,比如在不同光照條件下判斷出熟人及其名字(人臉識别)、依據對某人曆史行為的評估決定是否借錢給他(風控準入模組化)以及借多少(授信額度模組化)等等。人的學習過程是從書本、老師以及實踐探索中不斷積攢經驗,成為具有“智慧”的個體;機器學習與此略有不同,它的經驗來源于大量的資料,接受某個領域的資料便可成訓練成為該領域的“智能體”,例如,大量的人臉圖像可以訓練出人臉識别或身份認證系統。利用資料獲得經驗的過程稱之為模組化;利用經驗對新資料做出估計或者預測的過程稱之為推理。

機器學習可解決數字經濟中的諸多問題,比如說克服因服務人員經曆不足或情緒不佳影響産生的偏見和歧視。這是因為在大資料時代,機器學習可獲得更加全面的資料和經驗,據此提升社會服務的公正性。機器學習無需人工幹預即可實作智能服務,是以還可以大幅提高生産效率。例如在618購物節中,京東智能客服7*24小時不間斷地為數億使用者解答疑問,這是傳統人工客服團隊不可能做到的。

第二關鍵詞是分布式,是指資料被分為若幹份,各份資料的存儲和計算都分布在不同位置。其中,不同位置包括不同的使用者終端或者企業伺服器。像手機、平闆電腦這樣的使用者終端已逐漸成為人們生活的必需品,被廣泛用于社交、擷取新聞資訊、記錄備忘、消遣消費等,其使用者日均使用時長達到5小時(2018年移動網際網路報告)。随着使用時間的增加,使用者終端存儲了大量的隐私資料,包括朋友聊天記錄、浏覽記錄、日程安排、照片視訊等。不誇張地說,這些資料從不同側面展示了一個“數字化的你”。

數字化的好處在于讓計算機更“懂你”,進而提供貼心的服務,例如推薦最想買的商品、找回遺忘的資料等。數字化的壞處在于隐私洩露,2019年央視3-15晚會就介紹了個人隐私資訊通過手機App洩露的案例。是以,法規一般要求這些資料在非授權情況下隻能存儲在使用者終端,或者授權情況下存儲在對應的企業伺服器,禁止洩露給第三方。在不傳輸隐私資料的前提下,分布式的機器學習可以使用存儲在不同終端或者企業的資料,例如谷歌的GBoard移動鍵盤團隊使用分布在150萬使用者終端的6億個句子提升了手機輸入法預測下一詞的準确性,這讓使用者可以快速輸入腦海中的字詞,也能聯想到新出現的流行詞、縮寫詞等。通過這種分布式的方法,我們可以讓使用者享受大資料帶來的良好體驗,同時又能避免隐私資料的傳輸。

第三個關鍵詞是隐私保護,它是防止惡意攻擊的盾牌。分布式的機器學習可以使用分布在不同終端或者企業的資料,雖然不會直接傳輸使用者隐私資料,但是黑客(惡意的聯邦成員)可以使用一些特殊的破解技術,利用模組化階段所需的大量中間值,推算出對應的原始資料,進而竊取聯邦内的使用者隐私。

隐私保護技術的主要思想是對訓練過程的中間結果進⾏某種變換,以掩蓋原始資料或改變其資料特性,⽐如連續性、分布規律等,從⽽使得惡意聯邦成員的破解技術失效,同時還能保證誠實的聯邦成員依然可以從資料中學習到經驗。就相當于資料提供方将資料放入保險箱中進行傳輸,其他聯邦成員無法打開箱子看到真實資料,但卻可以在不解鎖的情況下,對保險箱中的資料完成訓練所需的操作;當訓練完成後,資料提供方再開箱取出計算結果即可。這種理想的功能需要我們使用特殊的技術進行實作,其中常⽤技術包括差分隐私、同态加密等。簡單來說,差分隐私對資料加上一定程度的随機噪聲,例如将年齡從50改為46(-4)或者51(+1),這可使得某些破解技術失效;同态加密是将資料變換到另一個數域的技術,新數域的大小順序、分布都會發生變化,是以不可能被破解出原始資料。

是以,聯邦學習是機器學習、分布式、隐私保護三合一的交叉技術。與現有的分布式機器學習不同,聯邦學習主要受制于原始資料分布在不同位置的嚴格限制,不能有任何洩露原始資料的風險,隐私保護技術是防止洩露的關鍵。

如何直覺了解隐私保護技術?

這裡我們以“百萬富翁”設想為例,簡單直覺地說明隐私保護技術的需求和解決方案。這是個非常經典有名的案例,是由計算機界最有名的姚期智院士于1982年提出的數學難題。有意思的是,這個問題引發了更多的相關研究,并逐漸發展成為密碼學的一個重要分支。“百萬富翁問題”是這樣的:兩個争強好勝的富翁A和B在街頭相遇,如何在不暴露各自财富的前提下比較出誰更富有?

這個問題的難點在于,兩個富翁都不想暴露自己的财富數量,既不想直接告訴對方也不願借助第三方機構的幫助。如何直覺地解決這個問題?我們可以參考一種“變換”的方法。假設兩個富翁(A和B)的财富都在 10 B$(100億美元)以内,則我們可以簡單地用十個盒子比較出A和B誰的财富更多。

首先,由A進行如下操作:給盒子貼上編号,并按照财富值放入水果,放置規則如下:如果編号等于财富值的盒子放入橙子,編号小于财富值的盒子放入蘋果,編号大于财富值的盒子放入香蕉。假設A 的财富是3 B$,則放置結果如圖所示。

人工智能新技術——聯邦學習的前世今生(上)

然後,A給所有盒子上相同的鎖(即要求開鎖的鑰匙是一樣的,依靠鑰匙不能辨識盒子的編号)。這裡将财富值“變換”為鎖在盒子裡的水果,本質是一個加密過程。

人工智能新技術——聯邦學習的前世今生(上)

接下來A下場、B上場,B知道A的操作是編号、放水果、上鎖,但是不知道每個盒子裝了什麼水果。B要做的是選擇與自己财富對應的盒子去除編号,并銷毀其他盒子。這裡去除編号的目的在于讓A不知道B選擇了哪個盒子,進而避免洩露B的财富數量。

人工智能新技術——聯邦學習的前世今生(上)

最後,A和B同時上場,由A開鎖打開剩下的無編号的盒子,這個盒子裡對應的水果就能推斷出誰更富有。這裡基于水果推測結果,本質是一種解密過程。假設B的資産是5 B,則打開盒子獲得香蕉,表明B更富有;假設B的資産是2 B,則獲得蘋果表明A更富有;假設B的資産是3 B$,則獲得橙子表明A和B的财富是差不多的。通過這幾個步驟,A和B都沒有向任何人洩露自己的财富數量,但成功實作比較,這就是一種隐私保護的比較計算技術。

也許有讀者會問,在這個解決方案中,B可以通過順次比較的方式,最多9次就能破解A的财富是多少了。确實如此,這主要是因為這裡隻用到10個盒子,而我們可以通過增加盒子數量的方式增加破解的難度。在實際操作過程中,一般采用基于數論的密碼學技術,這種技術的破解難度非常大,即使用最先進的計算機可能也需要數百年才能破解。

聯邦學習效果如何

在與其他團隊進行技術交流時,我們發現很多朋友對聯邦學習存在主觀偏見:聯邦學習的主要作用是合規地共享資料能力而不洩露使用者隐私,依據經驗和“沒有免費的午餐”定律,隐私保護會損害機器學習的模型效果(例如預測準确性或排序性)。事實正好相反,聯邦學習并不會損害模型效果,反而能夠從如下兩個方面提高業務模型的效果。

一方面,聯邦學習理論上是可以獲得最優解的,通過梯度下降疊代過程,可以實作聯邦間的特征組合和交叉模組化,進而解決如“異或”這樣的非線性問題,這等價于把資料拼到一起後進行機器學習的效果。異或問題如下表所示:

人工智能新技術——聯邦學習的前世今生(上)

表 異或問題

傳統的子模型法為了控制資料洩露的風險,往往隻能帶少量樣本的标簽(Label)到其他企業模組化,然後融合雙方子模型的輸出分獲得最終決策,這就如同盲人摸象每次隻能看到一個側面,效果難以達到最佳。對于上述異或問題,子模型發現無論特征(Feature)是“0”還是“1”,标簽分别是“Bad”和“Good”的比例都是差不多的,是以子模型的判斷準确率隻有50%,這和扔硬币方式的猜測差不多。相比之下,聯邦學習可以建立如下圖所示的決策樹模型,有效地解決異或問題的判斷,準确率從50% 提高到100%。

人工智能新技術——聯邦學習的前世今生(上)

圖 聯邦決策樹判别“異或”問題

另一方面,聯邦學習由于能夠保護資料隐私安全,是以無需限制模組化樣本的數量。也就是說,聯邦學習可以使用更多的資料模組化,因而能夠基于大資料更有效地發現資料規律,提高模型效果。

上述兩個方面從理論上表明,聯邦模組化效果優于傳統子模型法。在行業實踐的一個包含2家企業的聯邦POC驗證中,聯邦學習相比于單側模型的效果提升了13%,相比于傳統子模型法也有4%的提升。也許有人質疑4%的相對提升并不高,但是,移動網際網路市場環境表明,随着拓新增量市場見頂,流量紅利耗盡,存量市場的競争将變得異常激烈,對于存量市場的精細化營運成為企業賴以生存和發展的依靠,每一點提升都将具有重要意義。此外,這僅僅是2家企業聯邦的效果,随着聯邦成員數量增加,聯邦模型具有更多、更互補的視角,效果将會獲得更大的提升。

參考文獻

[1] Andrew Hard et., al. Federated Learning for Mobile Keyboard

Prediction, https://arxiv.org/abs/1811.03604

[2] Qiang Yang et., al. Federated Machine Learning: Concept and

Applications. ACM TIST2019. https://arxiv.org/abs/1902.04885

[3] Federated Learning: Collaborative Machine Learning without

Centralized Training.

https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

[4] Kewei Cheng, Qiang Yang et., al. SecureBoost: A Lossless Federated

Learning Framework. https://arxiv.org/abs/1901.08755

[5] 劉洋, 範濤. 聯邦學習的研究與應用.

https://img.fedai.org.cn/fedweb/1553845987342.pdf

[6] Tian Li et., al. Federated Learning: Challenges, Methods, and

Future Directions. https://arxiv.org/abs/1908.07873

[7] 飛向未來的埃舍爾.

聯邦學習/聯盟學習的發展現狀及前景如何?https://www.zhihu.com/question/329518273/answer/717840293

結語

在移動網際網路時代,基于大資料的智能技術讓我們的生活更便捷、娛樂更豐富、生産更高效,唯一不足在于潛在的隐私洩露。在隐私資料保護相關法規推動下,聯邦學習如雨後春筍般在各大企業快速成長,成為解決隐私資料保護和資料共享沖突的關鍵技術。本篇從聯邦學習的基本組成、直覺認識和準确性詳細剖析了聯邦學習技術,後續我們将繼續與大家探讨聯邦學習的應用前景、目前難點、技術原理和實施方案。

未完待續,敬請關注。

版權聲明:本文為CSDN部落客「weixin_38212886」的原創文章,遵循CC 4.0 BY-SA版權協定,轉載請附上原文出處連結及本聲明。

原文連結:https://blog.csdn.net/weixin_38212886/article/details/106091690

繼續閱讀