天天看點

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

論文使用強化學習選取極少的核進行混淆,解決模型水印和模型加密等方法的問題,思路有點意思

論文題目:

NNSplitter: An Active Defense Solution for DNN Model via Automated Weight Obfuscation

摘要

作為一種有價值的知識産權(IP),深度神經網絡(DNN)模型一直受到水印等技術的保護,然而,這種被動的模型保護并不能完全防止模型濫用。在這項工作中,我們提出了一種主動的模型IP保護方案,即NNSplitter,它通過将模型分為兩部分來主動保護模型:一是由于權值混淆導緻性能較差的混淆模型,二是由混淆權值的索引和原始值組成的模型秘密,這些秘密隻能由授權使用者在可信執行環境的支援下通路。實驗結果證明了NNSplitter的有效性,例如,僅修改超過1100萬個權重中的275個(即0.002%),混淆後的ResNet18模型在CIFAR-10上的準确率可以下降到10%。此外,NNSplitter具有隐身性和抗規範剪切和微調攻擊的彈性,使其成為DNN模型保護的一個有吸引力的解決方案。

代碼:https://github.com/Tongzhou0101/NNSplitter

1. 介紹

盡管深度神經網絡(dnn)在各種應用中取得了成功,建構一個高精度的DNN模型成本很高,即需要大量的标記樣本和大量的計算資源。是以,高性能DNN模型呈現了模型所有者的寶貴知識産權(IP),這些知識産權自然應該得到充分保護,以防止潛在的攻擊。然而,最近的研究表明,數以百萬計的裝置上機器學習模型容易受到模型IP攻擊,攻擊者可以提取模型并将其部署在未經授權的裝置上,這種未經授權的使用會給模型所有者帶來重大的經濟損失。

一些研究已經解決了DNN模型的保護問題,大緻可以分為兩類:被動保護(知識産權侵權後)和主動保護(知識産權侵權前)。雖然被動保護技術(如水印)有助于模型所有者聲明所有權并保護其權利,他們不能有效地防止未經授權的使用,因為模型在大多數情況下可以表現得很好。是以,攻擊者仍然有動機竊取執行良好的模型,并在模型所有者不知情的情況下使用它。

相比之下,主動保護隻允許合法使用者使用性能良好的模型,同時故意降低攻擊者的模型功能,進而保護模型所有者的利益。然而,主動保護方法的這種優勢并不是免費的,它要麼需要硬體支援,例如硬體信任,要麼引入額外的模型參數。此外,現有的主動保護方法不是通用的,即需要特殊的模型保護、訓練政策使它們不适用于預訓練的模型。同樣值得注意的是,一些故障注入方法也會導緻精度下降,使用面向軟體或面向硬體攻擊方案。但這些作品的設計都是從攻擊者的角度出發,無法滿足主動防護的要求(如表1所示),具體内容将在2.4節中讨論。

考慮到現有防禦政策的這些局限性,我們有動力開發一種通用的主動模型知識産權保護方案。具體來說,我們建議将受害模型拆分為混淆模型和模型秘密,這應該滿足表1中較長的描述的需求。這種方案的設計提出了以下重大挑戰(C)。C1:考慮到我們可以利用的安全記憶體的大小有限,例如,可信執行環境(TEE) ,存儲的模型秘密需要保持較小,而現代DNN模型中有數百萬甚至更多的權重。C2:應該為合法使用者保留模型功能。C3:混淆的權重應該是難以察覺的,不容易被攻擊者識别。C4:攻擊者無法通過合理的努力來顯著改善已退化的精度。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

為了解決C1問題,我們提出的方案,即NNSplitter,生成一個掩碼,在小範圍内選擇性地混淆權重。這個範圍被選擇的足夠小,使得模糊權重的原始值可以被單個值代替,進而減少了模型秘密的存儲需求。為了實作這一目标,我們利用強化學習(RL)算法來設計一個控制器,該控制器可以有效地識别對模型預測有重大影響的重要過濾器。通過關注這些過濾器,我們可以最小化混淆權重的數量,同時仍然實作顯著的精度下降。對于C2,在應用模糊權重恢複規則(詳見3.1節)後,我們對模型權重進行輪廓化并調整上述小範圍,以確定保留原始模型的精度。此外,我們設定了限制,以確定混淆的權重保持在原始權重範圍内,以避免被攻擊者識别(C3)。最後,我們強制權重變化在各個層之間傳播,以增加對潛在攻擊面的彈性,以提高準确性(解決C4)。

總的來說,NNSplitter通過将受害模型分成兩部分來實作模型IP保護:混淆模型和模型秘密。具體來說,模糊模型容易受到模型提取的影響,但由于權重模糊導緻的精度下降使得它實際上毫無用處,有效地減輕了脆弱性。同時,對模型秘密進行TEE保護,提供授權推理,隻有授權使用者才能通路。

本工作的貢獻如下:

•我們系統地定義了主動模型保護的要求,并提出了NNSplitter,該NNSplitter可以在滿足所有這些設計要求的情況下自動将受害者模型拆分為混淆模型和模型秘密。

•通過修改受害模型的0.001%權重(~ 300),混淆模型的準确性可以下降到随機猜測,由于低安全記憶體要求,這是硬體友好的。

•我們證明了所提出的NNSplitter具有抵禦潛在攻擊的彈性,包括規範裁剪和微調攻擊。

2. 相關工作及背景

2.1. 威脅模型

為了確定高效的模型保護,我們考慮一個強大的攻擊者,他有能力提取确切的受害者DNN模型,包括其架構和模型參數,使用(Sun et al, 2021)中提到的記憶體提取等技術。例如,攻擊者可以下載下傳使用DNN模型建構的移動應用程式,對其進行反編譯,提取模型檔案,并将其部署到自己的裝置上。此外,我們假設攻擊者隻有有限的訓練資料;否則,他們可以自己訓練一個有競争力的模型,沒有強烈的動機去竊取受害者模型。考慮到這些場景,我們的目标是設計一種模型保護方案,可以有效地保護受害模型IP免受這種強大攻擊者的攻擊。

2.2. 可信執行環境

雖然被動模型IP保護無法保護模型不被竊取或使用,但我們認為TEE是實作主動模型保護的有希望的解決方案。TEE在硬體裝置中提供了一種實體隔離方案,将記憶體分為正常(不可信)世界和安全(可信)世界,其中正常世界可以通過調用安全螢幕調用與安全世界通信。這種設定確定隻有合法使用者才能通路安全世界,而攻擊者則被阻止。鑒于TEE在模型保護中的有效性已在先前的工作中得到證明,我們采用了下面的TEE實作方案,而沒有深入研究技術細節或考慮TEE的漏洞(例如,側信道攻擊),因為它不是本工作的主要焦點。

重要的是要注意TEE的安全記憶體是有限的,例如,對于受信任的應用程式,大約10 MB ,另一方面,最先進的(SOTA)深度神經網絡模型的規模不斷增加,例如,像ResNet-101這樣的大型模型超過了155M個參數。為了适應這個限制,我們的方法NNSplitter旨在混淆盡可能少的權重,以最小化安全記憶體使用的開銷。

2.3. 知識産權保護

現有文獻已經積極解決了邊緣裝置上的模型安全問題,并證明攻擊者即使沒有複雜的技能也可以很容易地提取模型。如上所述,現有的被動模型保護方法,如水印在完全防止模型盜版方面存在局限性。另一方面,已經提出了主動保護方法,例如模型加密,其中模型檔案被加密并存儲在記憶體中。然而,加密模型需要在運作時進行解碼以進行推理,這仍然容易受到攻擊。

為了提高模型IP安全性,Chakraborty等人利用安全硬體支援,提出了一種依賴密鑰的反向傳播算法來訓練權空間混淆的DNN架構。經過混淆後,隻允許授權使用者在可信硬體上使用嵌入密鑰的模型,如果攻擊者提取模型并将其部署到其他裝置上,則模型的準确性将大大降低。然而,這種方法需要硬體修改,不能普遍用于保護預訓練模型。同樣,Fan等人提出了一種通過在DNN模型中嵌入護照層來保護模型IP的方法,使得原始任務的DNN推理性能會因僞造護照而顯著下降。然而,這項工作旨在防禦歧義攻擊,并且隻能應用于已經嵌入水印的模型。這些現有的方法為模型保護提供了有價值的見解,但是它們要麼需要硬體修改,要麼在适用性方面有特定的限制。

2.4. 與故障注入的差別

主動模型保護的一個關鍵點是将性能下降(例如,精度下降)引入受保護模型。雖然目标與故障注入攻擊相似,即操縱DNN模型參數引起異常推理,但基本設計要求有很大不同:(i)隐身性:故障注入攻擊不考慮模型操作中的隐身性,這引入了極大的幅度變化,可以通過應用權重範圍限制很容易區分和去除。(ii)彈性:大多數故障注入攻擊隻針對輸出最直接的參數,例如最後一層的參數。然而,這種攻擊對微調是沒有彈性的。此外,盡管bitflip 等現有攻擊會修改不同層中的權重位以降低模型精度,但這種基于梯度排序的攻擊可以通過權重重建來緩解。此外,位翻轉攻擊的目标是量化DNN模型,其中權值是基于量化方法限制的,而如何確定攻擊對浮點精度DNN模型的隐蔽性和彈性還有待研究。

與這些攻擊研究形成鮮明對比的是,我們從防禦的角度重新思考并解決了上述所有設計限制。具體而言,我們主要探索一種利用TEE硬體支援的主動防禦方案,主動阻止攻擊者擷取功能DNN模型,降低模型提取攻擊的動機。我們的工作與現有文獻正交,可以普遍應用于任何預訓練的模型。

3.建議的方法:NNSplitter

本節給出我們提出的主動DNN模型保護方法NNSplitter,該方法滿足有效性、高效性、完整性、彈性和隐身性的要求,如表1所示。

NNSplitter的概述如圖1所示,包括離線模型混淆和線上安全推理。在離線階段,以預訓練的DNN模型作為輸入(⃝1),掩碼生成器根據一定的規則(第3.1節)對權重分布進行輪廓分析,以确定掩碼的參數。掩碼參數和DNN模型将與資料集一起被送入優化循環(⃝2)。在回路中,我們建構了一個基于rl的控制器來幫助形成一個濾波器掩模,該掩模用于指導模型優化器優化的權重混淆。然後在測試資料集上評估的負精度将作為優化控制器的獎勵。當獎勵收斂時,即精度停止下降,優化循環将生成兩個部分-部署在正常世界(不可信記憶)中的模糊模型(⃝4)和模型秘密(⃝3),其中包括存儲在安全世界(可信記憶)中的模糊權重的索引和原始值。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

在線上安全推理過程中,模型逐層執行。在每一層,模糊權重被用來計算一個輸出特征映射,該特征映射可能包含某些輸出通道中的錯誤。這些錯誤被有意地傳播到後續層,導緻準确性大幅下降。此機制有效地防止攻擊者未經授權使用,因為他們從中提取模型

3.1. 問題公式化

給定一個預訓練的DNN模型M,其中包含L個卷積/全連接配接層,其權重為W:= {W(L)}LL=1,我們的目标是找到使分類損失函數LM最大化的最優權重變化∆W(與W大小相同)。為簡單起見,我們将W和∆W中的每個元素分别記為wi和∆wi,其中i∈[1,N], N為模型權值的總數。在實作最佳權重混淆後,我們存儲非零∆wi和原始wi的名額,以保持受害者模型對合法使用者的性能。

掩碼生成器 為了降低安全存儲要求,我們為∆W設計一個掩碼M來确定需要混淆的權重,其定義為:

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

其中c和λ都是可控的超參數。使用這個掩模,我們可以細化權重變化∆W ':=∆W⊙M,其中⊙表示元素的乘法。掩模設計的好處是雙重的:(i) M隻允許[c−λ, c + λ]範圍内的權重被混淆。通過選擇一個小的λ,我們確定模糊權重接近于一個常量c。這允許我們為這些模糊權重存儲一個值,而不是多個不同的值,進而在保留模型功能的同時節省了安全空間;(ii)通過仔細選擇c,我們可以将權重混淆分布在各個層上,顯著提高對潛在攻擊面的彈性,例如微調(參見第5.2節的結果)。此外,我們對∆W '進行了0範數正則化,進一步節省了安全存儲空間。

模型優化器 為了提高權值混淆的隐蔽性,我們将混淆權值W+∆W '限制在W的原始值範圍内,這是通過式(2)中的超參數α和β來實作的。是以,通過最小化損失函數L(∆W '),可以找到最優的∆W ':

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

式中,f為DNN模型M的功能,x為訓練樣本,y為相應的标簽,λ控制權值變化的稀疏度。

然而,考慮到由數百萬個參數組成的SOTA DNN模型,僅使用0-norm來最小化權值變化的數量是不夠的。考慮到不同濾波器的重要性不同(,例如,與學習目标邊緣的濾波器相比,學習背景特征的濾波器貢獻較小,我們建議将濾波器明智的權重選擇政策嵌入到掩模設計中。該政策涉及僅向標明的重要過濾器添權重重變化,同時仍然滿足Eq.(1)中的限制。通過這樣做,我們可以進一步減少權重混淆所需的存儲空間,同時仍然達到期望的精度退化水準。

盡管如此,由于SOTA dnn中有大量的濾波器,手動選擇濾波器來設計最佳的濾波器掩碼是不切實際的。是以,我們提出了一個基于rl的控制器來自動選擇最優濾波器。

3.2. RL-based控制器

作為NNSplitter的重要組成部分,基于正規表達式的控制器的目标是形成一個濾波器掩碼。雖然一種直接的方法是使用控制器生成M設計所需的所有超參數,包括Eq.(1)中的c和λ,但這種設計原則會增加開發控制器的複雜性和優化難度。為了克服這些挑戰,同時保持控制器的有效性,我們利用關于模型權重分布的領域知識來确定這兩個超參數的值(參見第4.2節的詳細資訊),并将困難的部分,即選擇重要的過濾器,留給控制器。

所開發的控制器由三部分組成:編碼初始狀态的編碼器,決策的政策網絡,以及不同層的解碼器,将政策網絡的輸出解碼為過濾索引。在該控制器中,agent為每一層(即動作)選擇一個索引為k的過濾器,其中k∈[1,k (l)], k (l)表示第l層過濾器(即輸出通道)的個數。由于狀态K(l)是由受害者模型M的體系結構決定的,是以對于代理來說,環境是靜态的。為了為每一層選擇n個過濾器(n可以是1),我們将有n個代理總共執行n * L個動作,記為a1:n * L。所有智能體将共享一個權重為θ的控制器,該控制器将通過最大化期望獎勵J(θ)進行優化:

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

其中π(·)表示給定θ時所采取行動的機率,獎勵R由模糊模型的負推理精度構造,由式(4)定義:

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

其中ACC為準确率,xt為驗證資料集,yt為相應的标簽。考慮到R對于控制器輸出是不可微的,我們使用政策梯度法:強化算法來最大化J(θ),這與最小化控制器的損失函數相同:

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

其中m表示控制器每一集的軌迹數,b表示用于減少更新θ方差的獎勵的指數移動平均值。算法1描述了模糊模型生成使用從掩碼生成器(第1行)獲得的掩碼參數c和ε,初始化的控制器将首先設計一個過濾器掩碼,通過最小化Eq.(2)(第4-8行)來優化受害者模型,然後控制器使用從受害者模型獲得的獎勵=來優化自身(第914行)。當獎勵收斂時,NNSplitter将輸出兩部分,即模糊模型和存儲在安全世界中的模型秘密。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

4. 實驗驗證

4.1. 實驗設定

資料集 我們評估了NNSplitter在使用三個資料集訓練的模型上的有效性:Fashion-MNIST 、CIFAR-10和CIFAR-100 。對于Fashion-MNIST,訓練資料集中有來自10個類的60k 28 × 28灰階圖像,測試資料集中有10k圖像。此外,CIFAR-10/100都有50k的32 × 32的訓練圖像和10k的測試圖像,隻是CIFAR-10有10個類,而CIFAR-100有100個類。

基線DNN模型 雖然NNSplitter适用于任何預訓練模型,但這裡我們考慮幾種常用的dnn作為概念驗證,包括在上述資料集上訓練的VGG-11 , MobileNet-v2和ResNet-18/20 。來證明NNSplitter是一個通用的防禦解決方案,不管受害者模型的訓練政策如何,即,無訓練,我們使用預先訓練的模型,其權重線上公開,其中參數設定(例如,層次元)對于不同資料集的相同DNN類可能不同。我們使用線上釋出的結構和預訓練權重,盡管它們可能無法達到這些資料集上最知名的精度。

比較的方法 由于沒有現有的作品遵循與NNSplitter相同的設定和目标,我們提出以下方法進行比較,以證明其有效性。(i)随機:我們沒有使用領域知識和基于rl的控制器來設計濾波器掩碼,而是假設一種模型保護方法,該方法随機生成一個二進制掩碼來選擇權重,并通過優化Eq.(2)來混淆它們。為了公平比較,二進制掩碼将選擇與NNSplitter相同數量的混淆權重。(ii) BaseNNSplitter:該方法在每層随機選擇濾波器,而不是使用基于rl的控制器來優化選擇。

4.2. Hyper-parameters設定

權值限制 為了增強權值變化的隐潛性,我們在Eq.(2)中使用了兩個超參數α和β,以確定混淆權值與正常權值無法區分,進而避免了異常值檢測。考慮到一般情況下min{wi} < 0, max{wi} > 0, α和β的值在(0,1)範圍内。具體來說,在接下來的實驗中,它們被設定為0.95。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

掩模的設計 掩模設計依賴于權重分布的領域知識,具體來說,為了确定掩模超參數c和λ,我們分析了每層的權重分布,并将中位數的平均值作為c,這将鼓勵權重變化在各個層之間傳播,如圖2所示。至于确定ϵ,其原則是確定用c替換[c−ϵ,c +ϵ]範圍内的權重時能保持精度。是以,c越接近總權重的中位數,ϵ就越小。否則會造成較大的精度損失,無法恢複基線精度。詳情見表2。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

控制器的設計 我們方法中基于rl的控制器遵循與神經架構搜尋相似的設計,即使用遞歸神經網絡(RNN)建構政策網絡,其中RNN政策網絡的嵌入維數和隐藏維數分别設定為256和512。此外,我們使用單熱編碼對初始狀态進行編碼,作為政策網絡的輸入。為了将政策網絡的輸出解碼為過濾器索引,我們為DNN受害者模型中的每一層建構一個具有線性層的解碼器,其輸出維數等于相應DNN層中的輸出通道數。

4.3. 效果評估

為了找到添加到預訓練模型中的最優變化,我們利用設計的基于rl的控制器在卷積層和全連接配接層中選擇濾波器。這裡,為了簡單起見,我們也将全連接配接層的每個輸出通道稱為過濾器。NNSplitter法、基線法和随機法的結果見表3。根據表1中對DNN模型保護方案的定義要求,我們從有效性、效率和完整性三個角度評估NNSplitter的性能。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

有效性 如表3第5列和第6列所示,NNSplitter成功地将受害者模型推理精度降低到随機猜測,使得攻擊者的努力無效。具體而言,對于Fashion-MNIST和CIFAR-10等10類資料集,所有受害者模型的混淆top-1準确率低于11%,而對于包含100類的CIFAR-100,混淆後的受害者模型top-1準确率低于2%。而随機選擇權值則會造成模型混淆僅導緻有限的精度下降(表3第7列),例如,在Fashion-MNIST上訓練的VGG-11模型的精度下降約1%(92.90±0.40% vs. 93.73%)。此外,在所有情況下,混淆權重的數量都低于1k,這足夠小,可以存儲在TEE中,較小的存儲需求可以支援在同一裝置上部署更多型号。

效率 考慮到DNN模型的尺寸不斷增加,我們的目标是通過修改很小一部分模型權重來實作主動模型保護。具體來說,通過在Fashion-MNIST上混淆VGG-11模型的0.001%權重,模型變得完全故障,即推理精度等于随機猜測。此外,對于像CIFAR-100這樣更複雜的資料集,權重混淆的比例仍然很小,例如VGG-11的權重混淆率為0.008%。請注意,我們提出的設計可以通過調整掩模超參數c和λ來進一步降低這一比例。然而,為了公平的比較,我們遵循所有受害者模型的通用政策來确定這些參數,如第4.2節所述。

此外,圖3表明,當期望的精度退化較小時,所需的權重變化較少。例如,在300個模糊權重和301個模型秘密(包括300個索引和c的值)的情況下,NNSplitter在Fashion-MNIST上對VGG-11模型的準确率下降到10.23%。此外,當混淆權重的數量減少到150時,仍然可以觀察到明顯的準确性下降。相比之下,随機混淆300個權值,準确率僅下降到92.49%,而秘密數幾乎增加了一倍,即600個,這是由于混淆權值的原始值并不接近,無法用單個值代替。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

完整性 確定合法使用者的正常模型推斷對于主動模型保護方法至關重要,是以,我們的方法應該安全地消除對授權使用的混淆權重的不利影響。具體來說,通過通路存儲在TEE中的模型秘密,可以根據存儲的索引定位混淆的權重。由于我們提出的方法在[c−ϵ,c +ϵ]中仔細選擇了一個非常小的ϵ(見表2),我們可以在計算過程中用混淆的權重替換常數c,進而保持基線精度,如表3第8列所示。

4.4. 消融實驗

我們進行了消融研究,以驗證基于rl的控制器的有效性。通過将4.1節中定義的Base-NNSplitter應用于相同的受害者模型,我們可以測量導緻相同精度下降所需的混淆權重的數量,BaseNNSplitter與NNSplitter的增量比如表4所示。在最壞情況下,增量可達125%,證明了該控制器在優化濾波器選擇方面的有效性。總之,我們開發的基于rl的控制器以更少的混淆權重實作了急劇的精度下降。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

5. 讨論

除了有效性之外,NNSplitter還考慮了潛在的攻擊面,即攻擊者是否能夠識别混淆的權重并減輕其不利影響,或者通過進一步攻擊提高混淆模型的準确性,例如使用有限的訓練資料對模型進行微調。是以,我們按照表1中定義的要求來評估NNSplitter的隐身性和彈性。此外,我們對直接混淆政策和我們的方法進行了比較,以突出NNSplitter在緩解潛在強攻擊方面的優勢,如第5.2節所示。

5.1. 隐匿性

如第2.4節所述,以前通過操縱權重來實作精度下降的工作分為兩類:基于幅度的和基于梯度排名的。然而,與前一類相比,NNSplitter将混淆權值限制在原權值範圍内,進而避免了容易被識别。對于後一類,攻擊者可以通過檢查權重梯度來潛在地定位被混淆的權重,進而允許他們通過權重重建來改善降級的準确性。然而,NNSplitter通過使用優化方法而不是貪婪方法來減輕這種威脅。這使得攻擊者更難以對混淆的權重進行反向工程,并根據現有知識提高準确性,進而確定高水準的隐身性。

5.2. 針對潛在攻擊面的彈性

根據第2節中的威脅模型,我們假設有一個強大的攻擊者,他努力使用SOTA技術提高混淆模型的準确性,如範數裁剪和微調。

對抗Norm Clipping 範數裁剪旨在通過限制特征向量的範數來防禦通用的對抗性更新檔。在我們的例子中,由于準确性下降是由一些權重的大小變化引起的(從小到大),攻擊者可能會對權重采取規範裁剪,并試圖裁剪混淆的權重,消除其不利影響。具體來說,區間外的權重值将被裁剪到區間邊緣,其中區間由

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

t是一個在[0,1]範圍内的系數。

我們進行了實驗來評估範數裁剪作為攻擊NNSplitter的有效性。如圖4所示,結果表明,随着裁剪門檻值的降低,由于被裁剪的混淆權值更多,混淆模型的精度最初會提高。然而,在達到某一點後,由于正常權重也被剪裁,精度開始下降。值得注意的是,攻擊者達到的最高準确率仍然低于50%,這表明NNSplitter對規範剪切攻擊的彈性。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

對抗微調 假設更強的攻擊者意識到各層的權重混淆(如圖2所示),他們可能會嘗試使用有限的資料通過微調被混淆的模型來重建權重。評估NNSplitter的彈性針對微調攻擊,我們考慮攻擊者可用的不同大小的資料集,範圍從受害者模型使用的訓練資料的1%到10%。如圖5所示,一般情況下,精度會随着用于微調的資料集比例的增加而提高。然而,由于每次試驗的資料集是随機抽樣的,是以一些資料可能比其他資料對模型微調的貢獻更大,這就解釋了圖5中的波動。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

此外,我們的研究表明,與将權重變化集中在單層中相比,将權重變化分布在多層中可以更有效地防止微調攻擊。這一發現突出了我們的掩模設計的好處(ii),如第3.1節所述。具體而言,在模型秘密數量固定的情況下,我們分别在三個資料集上僅對VGG-11模型的第一層或最後一層添權重重變化,并使用10%的訓練資料對混淆模型進行微調。如圖6所示,僅對最後一層進行模糊處理會導緻精度略有下降(< 2%),通過微調攻擊可以恢複到接近基線精度的水準。雖然從防禦的角度來看,混淆第一層會使NNSplitter的準确率急劇下降,但它的防禦效果對微調攻擊根本沒有彈性。總之,我們提出的NNSplitter在表1的預期設計要求中優于這些政策。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

5.3. 模糊政策

我們在CIFAR-10上使用VGG-11進行了實驗,比較了修改歸一化層的尺度和偏置參數的直接混淆方法與NNSplitter。結果如表5所示。将歸一化層的scale參數模糊為1,bias參數模糊為0,導緻5504個參數發生改變,模型的模糊精度顯著下降至13.77%。這證明了直接混淆技術在降低模型性能方面的有效性。

ICML2023:NNSplitter:一種基于自動權重的DNN模型主動防禦方案

然而,我們觀察到這種混淆模型在提供針對微調攻擊的長期保護方面效果較差。特别是,當攻擊者隻通路10%的訓練資料集并進行微調時,他們能夠将準确率恢複到59.15%。相比之下,我們提出的NNSplitter實作了更大的準确性下降,即比混淆歸一化統計資料低10.4%,同時混淆更少的權重(876 vs 5504),這一發現證明了我們提出的防禦方法的有效性。

此外,該實驗比較驗證了我們的直覺,即與重建歸一化統計量相比,重建卷積權重對攻擊者更具挑戰性,這是我們設計複雜的權重混淆政策作為模型保護方法的一部分的動機。

6. 結論

我們提出了一種新穎的模型IP保護方案NNSplitter,通過為合法使用者保留模型功能來主動保護DNN模型。通過利用TEE的支援,NNSplitter自動将受害模型拆分為兩個元件:存儲在正常世界中的混淆模型和安全地存儲在安全世界中的模型秘密。通過大量的實驗,我們證明了NNSplitter在實作有效的模型保護方面的有效性,例如,通過修改約0.001%的權重(28.14M中的313),受害者模型隻輸出随機預測,使其對模型攻擊者無用。相反,合法使用者可以通過利用受保護的模型秘密成功地執行授權的推斷。此外,我們在NNSplitter的設計中解決了隐身性和抵禦潛在攻擊的彈性的重要方面。這確定了攻擊者無法識别我們的混淆技術,也無法通過合理的努力來提高降低的準确性。通過滿足這些關鍵的設計要求,NNSplitter成為在現實場景中保護DNN模型的有前途的解決方案。它能夠維護模型的完整性和功能,同時防止攻擊者未經授權使用,這對于希望保護其寶貴知識産權的模型所有者來說是一個很有吸引力的選擇。