天天看點

資料共享中的隐私保護問題

一、資料共享中的隐私保護問題

現有的資料共享模式較為簡單:資料需求方直接從遠端資料提供方擷取源資料至本地,在本地對資料進行處理、分析。需求方是整個平台的中心,源資料聚合在需求方,計算也都在需求方進行。這種模式存在諸多問題,首當其沖的便是資料洩漏和隐私保護問題。機器遭受攻擊時,無法保護資料。若節點的機器遭遇攻擊,作業系統、系統螢幕等高權限的程式被攻擊者控制,則攻擊者可以輕易的擷取機器中運作的資料,存在很大的隐私洩露隐患。資料需求方必須擷取源資料以實作資料共享。現有的資料共享協定很簡單,将資料明文共享到一個中心節點上,源資料直接暴露在平台中。資料加密傳輸可以減少資料在傳輸過程中洩漏的可能性,但這也無法阻止資料需求方獲得源資料。

總的來說,目前資料共享模式隻能對資料提供有限的保護,但在不可信計算節點、要求源資料不被需求方知悉的情況下則無能為力。

二、機器學習中的資訊安全和隐私問題

機器學習是通過已有資料集對機器學習模型進行訓練并預測未知資料結果的一種方法,大體可以分為訓練和預測兩個階段。在這兩個階段分别都存在着安全問題和隐私問題。

存在的安全問題有:1.在訓練階段,機器學習模型需要通過訓練資料集對模型參數進行更新優化,如果要保證訓練好的模型在測試資料集上達到同樣的準确率,訓練集和測試集必須有同樣的分布。攻擊者可能對此訓練階段的假設進行攻擊,通過修改訓練階段的資料集對機器學習模型進行攻擊。投毒攻擊就是一種最常見的訓練階段的攻擊方法,攻擊者對訓練集進行有目的增加、删除和修改就能達到攻擊的效果。例如,在垃圾郵件過濾的機器學習模型訓練過程中,攻擊者可以故意将含有某一類詞語的負樣本修改為正樣本,在預測階段時,垃圾郵件過濾模型将無法過濾含有這一類詞語的垃圾郵件。2.在預測階段,攻擊者可能使用對抗樣本對機器學習模型進行攻擊,使模型做出錯誤的預測。對抗樣本是一種針對深度神經網絡的攻擊手段,它通過在原始圖像資料中加入一些特定的噪聲,這種噪聲非常細微,人類的肉眼無法直覺檢查出來,卻會使神經網絡模型造成誤判。例如,針對基于深度學習模型的自動駕駛系統,攻擊者可能對一個原本為“STOP”的交通标志摻雜進對抗樣本噪聲,自動駕駛汽車會将其誤判為解禁限速的交通标志,造成嚴重的交通事故。

存在的隐私問題有:1.訓練階段,一方面,公司在訓練機器學習時可能使用分布式訓練的方式,在訓練過程中需要和使用者進行資料的互動,這一過程可能會洩露使用者的隐私;另一方面,如果不同公司之間想共享資料集進行資料挖掘,這一過程也可能洩露使用者的資料隐私。例如,一個公司擁有通過其提供的服務收集到的使用者個人資訊,并且将使用者資訊給另一公司進行資料挖掘,這就侵犯了使用者資料隐私權利。 2.在預測階段,很多雲計算廠商提供的MLaaS服務也存在着使用者隐私洩露風險。MLaaS 是雲計算廠商提供一種機器學習服務,使用者隻需要将需要預測的資料上傳至MLaaS伺服器,便可得到需要預測的結果。這一服務解決了使用者計算資源不足和服務提供方機器學習模型的知識産權保護問題。在MLaaS服務提供給使用者友善的同時,因為使用者需要将資料以明文的方式上傳至伺服器,不能對上傳資料進行加密,使用者的資料隐私無法得到有效的保護。例如,使用者發現身體不适,想通過MLaaS提供的機器學習服務來預測自己是否患有某種疾病,那麼他必須将自己的病例以及醫療資料以明文的方式上傳至MLaaS伺服器,因為不能對資料進行加密,使用者無法有效控制自己的隐私資訊的安全。

繼續閱讀