天天看點

大語言模型與資料隐私:探索人工智能新領域

作者:岱軍
大語言模型與資料隐私:探索人工智能新領域

人工智能在大型語言模型(LLM)如ChatGPT等方面對資料隐私帶來了挑戰,凸顯了健全的安全措施的需求。

譯自 LLMs and Data Privacy: Navigating the New Frontiers of AI 。

随着像ChatGPT這樣的人工智能驅動工具變得越來越普遍,它們引發了對資料隐私的重大關切。随着OpenAI的ChatGPT等模型成為我們數字互動的支柱,比以往任何時候都更迫切需要穩健的保密措施。

最近我一直在思考生成式AI的安全性問題。這不僅因為我自己沒有大量私人資料,而是因為我的客戶确實擁有。我也需要注意不要擷取客戶的資料并在基于SaaS的LLM中對其進行操作或分析,因為這可能會侵犯隐私。已經存在許多專業人員無意中或故意這樣做的警示故事。在我的許多人生目标中,成為一個警示故事并不在其中。

目前人工智能資料隐私狀況

盡管LLM具有巨大潛力,但人們日益擔心它們的資料隐私方法。例如,雖然強大,但OpenAI的ChatGPT利用使用者資料改進其能力,有時還與第三方共享這些資料。Anthropic的Claude和谷歌的Bard等平台的資料保留政策可能與使用者的資料隐私期望不符。這些做法凸顯了這一行業亟需采取以使用者為中心的資料處理方法。

數字化轉型浪潮催生了生成式人工智能工具,成為改變遊戲規則的關鍵因素。一些行業專家甚至将它們的革命性影響與網際網路等裡程碑式創新進行比較。随着LLM應用程式和工具的使用量飙升,存在一個明顯的缺口:通過保護訓練資料的輸入和模型輸出的任何資料來保護這些模型處理的資料的隐私。這提出了一個獨特的挑戰——LLM需要大量資料才能實作最佳性能,但它們也必須在複雜的資料隐私法規網中航行。

法律影響和LLM

LLM的激增并未逃過監管機構的眼睛。歐盟人工智能法案、通用資料保護條例(GDPR)和加州消費者隐私法案(CCPA)等架構已經制定了嚴格的資料共享和保留标準。這些法規旨在保護使用者資料,但也給LLM開發者和提供商帶來了挑戰,凸顯了創新解決方案的需求,這些解決方案将使用者隐私放在首位。

LLM的資料隐私主要威脅

2022年8月,開放Web應用程式安全項目(OWASP)釋出了2023年LLM應用Top 10,這是一份全面的指南,概述了LLM應用面臨的最嚴重的安全風險。一個此類關注點是訓練資料投毒。這發生在對資料或流程進行更改引入漏洞、偏見甚至後門時。這些修改可能危及模型的安全和倫理标準。确認訓練資料供應鍊的真實性對應對這一問題至關重要。

使用沙盒可以幫助防止未經授權的資料通路,對特定訓練資料集進行嚴格審查也非常重要。另一個挑戰是供應鍊漏洞。LLM的核心基礎設施,包括訓練資料、機器學習模型和部署平台,可能由于供應鍊中的弱點而存在風險。解決這個問題需要對資料源和供應商進行全面的評估。依靠可信的插件和定期進行對抗測試可以確定系統配備最新安全措施。

敏感資訊洩露也是一個挑戰。LLM可能會無意中洩露機密資料,引發隐私問題。為降低這種風險,使用資料脫敏技術至關重要。實施嚴格的輸入驗證流程和黑客驅動的對抗測試可以幫助識别潛在的漏洞。

使用插件可以增強LLM的功能,但由于插件設計不當,也可能引入安全問題。這些插件可能成為安全威脅的潛在入口。制定嚴格的輸入準則和強大的身份驗證方法對確定這些插件的安全至關重要。持續測試這些插件的安全漏洞也非常關鍵。

最後,LLM中的過度代理可能成為問題。賦予這些模型過多自治可能導緻不可預測且潛在有害的輸出。為這些模型設定明确的界限以及其可以使用的工具和權限對防止此類結果至關重要。功能和插件應明确定義,人類監督應始終到位,特别是對重要操作。

LLM安全的三種方法

LLM安全沒有一勞永逸的方法。這需要在與内部和外部資訊源以及這些模型使用者的互動方式之間取得平衡。例如,您可能希望面向客戶和内部的聊天機器人彙總機密機構知識。

大語言模型中的資料蔓延

大型語言模型中資料傳播是指通過模型輸入意外傳播機密資訊。鑒于LLM的複雜性和大規模訓練資料集,確定這些計算模型不會無意中洩露專有或敏感資訊至關重要。

在當今數字環境中,頻繁的資料洩露和日益增長的隐私關注使得減輕資料傳播至關重要。無意中洩露敏感資料的LLM對實體造成巨大的聲譽和潛在的法律後果風險。

解決此類挑戰的一種方法是完善訓練資料集以排除敏感資訊,確定定期模型更新以糾正潛在漏洞,并采用能夠檢測和緩解與資料洩露相關風險的進階方法。

LLM的沙盒技術

沙盒是在使用人工智能模型時保持資料安全的另一種政策。 沙盒涉及建立一個受控的計算環境,在其中系統或應用程式可以運作,確定其操作和輸出保持隔離,不會傳播到系統之外。

對于LLM來說,應用沙盒尤為重要。通過建立沙盒環境,實體可以控制對模型輸出的通路,確定互動僅限于授權使用者或系統。這種政策通過防止未經授權的通路和潛在的模型濫用來增強安全性。

HuggingFace上有30多萬個可用模型,強大的大型語言模型可以随時使用,是以那些有能力為企業部署自己的專用GPT并保密的企業非常合理。

有效的沙盒需要實施嚴格的通路控制,持續監控與LLM的互動并建立明确的操作參數,以確定模型的行為保持在規定的限度内。

LLM輸入前的資料模糊化

“模糊化”技術已經成為資料安全的一種突出政策。 模糊化涉及修改原始資料,使其對未經授權的使用者不可了解,而對計算流程保持功能性。 在LLM背景下,這意味着更改資料以保持模型功能性而對潛在惡意實體不可了解。 鑒于數字威脅無所不在,在将資料輸入LLM之前對其進行模糊化是一個防護措施。 如果發生未經授權的通路,脫離原始語境的模糊化資料對潛在入侵者幾乎沒有價值。

存在幾種模糊化技術,如資料屏蔽、令牌化和加密。選擇與LLM的操作要求以及正在處理的資料的固有性質相符的技術至關重要。選擇正确的方法可以實作最佳保護,同時保持資訊的完整性。

總而言之,随着LLM在各個行業的持續發展和應用,確定它們的安全性以及它們處理的資料的完整性至關重要。 基于嚴謹的學術和技術研究的積極措施對于應對這個動态領域帶來的挑戰至關重要。

OpaquePrompts:LLM的開源模糊化

為應對這些挑戰,Opaque Systems最近在Github上釋出了OpaquePrompts。它通過清理資料來保護使用者資料的隐私,確定在與LLM互動之前删除個人或敏感資訊。通過利用先進的技術,如保密計算和可信執行環境(TEE),OpaquePrompts保證隻有應用程式開發人員可以通路提示資料的全部範圍。 感興趣的人可以在GitHub上深入了解OpaquePrompts的工具集。

OpaquePrompts是為需要從使用者提供的上下文中獲得洞察的場景而設計的。其工作流程非常全面:

  • 使用者輸入處理:LLM應用程式建立一個提示,将檢索到的上下文、記憶和使用者查詢組合在一起,然後将其傳遞給OpaquePrompts。
  • 識别敏感資料:在安全的TEE中,OpaquePrompts利用先進的自然語言處理技術來檢測和标記提示中的敏感令牌。
  • 提示去識别化:對所有辨別的敏感令牌進行加密,以確定可以安全地将去識别化的提示傳遞給LLM。
  • 與LLM互動:LLM處理去識别化的提示,然後傳回一個類似去識别化的響應。
  • 恢複原始資料:OpaquePrompts恢複響應中的原始資料,確定使用者接收準确相關的資訊。

未來:将保密性與LLM結合

在快速發展的大型語言模型(LLM)領域,技術實力與資料隐私的交彙已成為讨論的焦點。随着LLM(如ChatGPT)成為我們數字互動不可或缺的一部分,保護使用者資料的迫切性從未如此強烈。雖然這些模型提供了前所未有的效率和個性化,但在資料安全和法規遵從方面也帶來了挑戰。

OpaquePrompts等解決方案證明了提示層面的資料隐私如何成為改變遊戲規則的因素。實體無需擁有自主托管基礎模型所需的專業知識和成本,而可以從一開始就實作資料保密,無需自己建構和托管模型。這簡化了LLM內建并增強了使用者信任,強調了對資料保護的承諾。

顯然,随着我們擁抱LLM的無限潛力,需要共同努力確定資料隐私不受損害。LLM的未來取決于這種精心平衡,在這裡技術進步和資料保護聚合以建立所有使用者的信任、透明度和改革性體驗。

繼續閱讀