天天看點

機器學習的重新思考:人工智能如何學習“失憶”?

機器學習的重新思考:人工智能如何學習“失憶”?

作者丨Samuel Greengard

編譯丨維克多

機器學習已經成為各行各業的寶藏工具,常被用來建構系統,幫助人們發現那些容易忽略的細節,并輔助決策。盡管已經取得了驚豔的結果,但是也有很多痛苦,例如如何在已經成型的模型中修改、删減某些子產品或者資料記錄?

有學者表示,在大多數情況下,修改往往意味着重新訓練,但仍然無法避免納入可疑資料。這些資料可能來自系統日志、圖像、客戶管理系統等等。尤其是歐洲GDPR出台,對模型遺忘功能提出了更高的要求,企業如果不想辦法将會面臨合規處罰。

确實,完全重新訓練的代價比較高,也不可能解決敏感資料問題。是以,我們無法證明重新訓練的模型可以完全準确、有效。

為了解決這些問題,學者們定義了一種“機器學習解除術”(machine unlearning),通過分解資料庫、調整算法等專門技術,誘導模型選擇性失憶。機器學習解除術,顧名思義,就是讓訓練好的模型遺忘掉特定資料訓練效果/特定參數, 以達到保護模型中隐含資料的目的。

1

打破模型

機器學習之是以有魅力,是因為它能透過龐大的資料,超出人類認知範圍的複雜關系。同時,這項技術的黑盒性質,讓學者在修改模型時候,非常謹慎,畢竟無法知道一個特定的資料點處在模型的哪個位置,以及無法明确該資料點如何直接影響模型。

另外一種情況是:當資料出現異常值時,模型會記得特别牢,并對整體效果産生影響。

目前的資料隐私工具可以在資料脫敏的情況下訓練模型,也可以在資料不出本地的情況下聯合訓練。或許可以将敏感資料替換成空值,引入噪聲掩蔽敏感資料。但這些都無法從根本上解決問題。甚至,替代元素并保留關鍵資料的差異隐私技術也不足以解決選擇性遺忘問題。例如它隻能在單個案件或少數幾個案件中發揮作用,在這些案件中,雖然不需要重新訓練,但會有“敏感”的人要求從資料庫中删除資料。随着越來越多的删除請求陸續到來,該架構的“遺忘模型"很快就會瓦解。

是以,隐私技術和機器學習解除術在解決問題的層面,并不能等同。

匿名無法驗證和差分隐私技術的資料删除問題不僅是理論問題,而且會産生嚴重的後果。研究人員已經證明,人們總是有能力從所謂的通用算法和模型中提取敏感資料。例如2020年時候,學者發現,從GPT-2中可以獲得包括個人身份和受版權保護的資訊等訓練資料。

機器學習的重新思考:人工智能如何學習“失憶”?

2

選擇性遺忘

讓機器學習模型獲得選擇性遺忘的能力,需要解決兩個關鍵問題:

1.了解每個資料點如何機器學習模型;

2.随機性如何影響空間。例如需要弄清,在某些情況下,資料輸入中相對較小的變化為何會産生不同的結果。

該方向的最初研究出現在在2019年。當時,Nicolas Papernot提出将機器學習的資料分割成多個獨立的部分,通過建立衆多的迷你資料,進而實作隻對特定元件進行删除和再訓練,然後插回完整的資料集中,生成功能齊全的機器學習模型。

機器學習的重新思考:人工智能如何學習“失憶”?

具體操作過程是:先将訓練資料分成多個不相交的切片,且一個訓練點隻包含在一個切片中;然後,在每個切片上單獨訓練模型;随後,合并切片,成功删除資料元素。是以,當一個訓練點被要求遺忘時,隻需要重新訓練受影響的模型。由于切片比整個訓練集更小,就減少了遺忘的代價。

該方法被Nicolas Papernot命名為SISA(Sharded, Isolated, Sliced, and Aggregated ),對比完全重訓練和部分重訓練的基線, SISA實作了準确性和時間開銷的權衡。在簡單學習任務中, 在資料集Purchase上是4.63x, 在資料集 SVHN上是2.45x。

同時,作者也承認,雖然這個概念很有前途,但也有局限性。例如,通過減少每個切片的資料量,會對機器學習産生影響,并且可能會産生品質較低的結果。此外,這項技術并不總是像宣傳的那樣奏效。

目前,機器學習遺忘術的研究仍處于初級階段。随着研究人員和資料科學家深入了解删除資料對整體模型的影響,成熟的工具也會出現,其目标是:機器學習架構和算法允許學者删除一條記錄或單個資料點,并最終得到一個“完全遺忘“相關資料的有效模型。

參考連結:

https://cacm.acm.org/magazines/2022/4/259391-can-ai-learn-to-forget/fulltext#FNA

雷峰網

繼續閱讀