天天看點

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

機器之心專欄

複旦大學姜育剛團隊

複旦大學開展針對視訊模型中對抗樣本遷移性的研究,以促進視訊模型的安全發展。

近年來,深度學習在一系列任務中(例如:圖像識别、目辨別别、語義分割、視訊識别等)取得了巨大成功。是以,基于深度學習的智能模型正逐漸廣泛地應用于安防監控、無人駕駛等行業中。但最近的研究表明,深度學習本身非常脆弱,容易受到來自對抗樣本的攻擊。對抗樣本指的是由在幹淨樣本上增加對抗擾動而生成可以使模型發生錯誤分類的樣本。對抗樣本的存在為深度學習的應用發展帶來嚴重威脅,尤其是最近發現的對抗樣本在不同模型間的可遷移性,使得針對智能模型的黑盒攻擊成為可能。具體地,攻擊者利用可完全通路的模型(又稱白盒模型)生成對抗樣本,來攻擊可能部署于線上的隻能擷取模型輸出結果的模型(又稱黑盒模型)。此外,目前的相關研究主要集中在圖像模型中,而對于視訊模型的研究較少。是以,亟需開展針對視訊模型中對抗樣本遷移性的研究,以促進視訊模型的安全發展。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

時序平移攻擊方法

與圖檔資料相比,視訊資料具有額外的時序資訊,該類資訊能夠描述視訊中的動态變化。目前已有多種不同的模型結構(例如:Non-local,SlowFast,TPN)被提出,以捕獲豐富的時序資訊。然而多樣化的模型結構可能會導緻不同模型對于同一視訊輸入的高響應區域不同,也會導緻在攻擊過程中所生成的對抗樣本針對白盒模型産生過拟合而難以遷移攻擊其他模型。為了進一步剖析上述觀點,來自複旦大學姜育剛團隊的研究人員首先針對多個常用視訊識别模型(video recognition model)的時序判别模式間的相似性展開研究,發現不同結構的視訊識别模型往往具有不同的時序判别模式。基于此,研究人員提出了基于時序平移的高遷移性視訊對抗樣本生成方法。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

論文連結:https://arxiv.org/pdf/2110.09075.pdf

代碼連結:https://github.com/zhipeng-wei/TT

視訊模型的時序判别模式分析

在圖像模型中,常常利用 CAM(Class activation mapping)來可視化模型對于某張圖檔的判别區域。然而在視訊模型的判别模式由于額外的時序次元而難以可視化,且難以在不同模型間進行比較。為此,研究人員定義視訊幀的重要性排序作為視訊模型的時序判别模式。如果兩個模型共享相似的時序判别模式,那麼視訊幀重要性的分布會更加相似。

視訊幀的重要性計算

研究人員使用了三種途徑衡量視訊幀對于模型決策的重要性:Grad-CAM,Zero-padding 和 Mean-padding。Grad-CAM 在由 CAM 計算得到的 attention map 中針對每一幀進行均值計算,該均值則為視訊各幀的重要性度量。而 Zero-padding 使用 0 來替換第i視訊幀中的所有像素值,并計算替換前後的損失值的變化程度。變化程度越高說明第 i 視訊幀越重要。類似地,Mean-padding 使用臨近幀的均值替換第i視訊幀。通過以上三種方式,可計算得到在不同模型下視訊幀的重要性程度,并以此作為模型的時序判别模式。

時序判别模式相似度計算

由上述方法計算視訊資料x在模型A上的視訊幀重要性得分為,其中T表示輸入視訊幀的數目。那麼針對模型A和模型B,可得到,結合 Spearman’s Rank Correlation,可計算模型間時序判别模式的相似性,即

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

其中,執行基于重要性值的排序操作并傳回視訊各幀的排序值。的值在-1和1之間,當其等于0時表示模型A和模型B間的判别模式不存在關系,而-1或者1則表示明确的單調關系。的值越大則模型間的判别模式越相似。基于此,可實作不同視訊模型時序判别模式間關系的度量。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

不同視訊模型間判别模式的相似程度

上圖為 6 個視訊模型間的判别模式關系熱圖。在不同模型設計架構下,Non-Local、SlowFast 和 TPN 間的時序判别模式相似程度較低;而在相同設計架構下,分别使用 3D Resnet-50 和 3D Resnet-101 作為 backbone 的視訊模型具有更加相似的時序判别模式。以上趨勢在三種視訊幀重要性計算方法中都得到了驗證。由此,可在實驗上證明該論文的假設,即不同視訊模型結構會導緻不同的時序判别模式。

基于以上觀察,研究人員提出了基于時序平移的遷移攻擊方法。通過沿着時序次元移動視訊幀,來降低所生成對抗樣本與白盒模型特定判别模型之間的拟合程度,提高對抗樣本在黑盒模型上的攻擊成功率。

使用表示輸入視訊,表示其對應真實标簽,其中T,H,W,C分别表示幀數,高度,寬度和通道數,K表示類别數目。使用表示視訊模型對于視訊輸入的預測結果。定義為對抗噪聲,那麼攻擊目标可以定義為,其中,且限制。定義為損失函數。則非目标攻擊的目标函數可定義為:

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

為了降低攻擊過程中對于白盒模型的過拟合現象,研究人員對時序移動後視訊輸入的梯度資訊進行聚合:

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

其中L表示最大平移長度,且。函數表示将所有的視訊輸入沿着時序次元平移i幀。當平移後的位置大于T時,設目前幀為第i幀,即t+i>T,則第t幀的位置變為第t+i-T幀,否則為第t+i幀。而在時序平移後的視訊輸入上計算完梯度後,仍會沿着時序次元平移回原始視訊幀序列,并通過w_i來整合來自不同平移長度的梯度資訊。w_i可利用均一、線性、高斯三種方式生成(參考 Translation-invariant 攻擊方法)。

攻擊算法整體流程如下,其中用來限制生成的對抗噪聲滿足。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

結果讨論與分析

為了探究時序平移攻擊方法的性能,研究人員在 UCF-101 和 Kinetics-400 兩個資料集,Non-local,SlowFast,TPN 三種不同結構的視訊模型中進行對比實驗,其中視訊模型分别使用 3D Resnet-50 和 3D Resnet-101 作為 backbone。當使用某一種結構的視訊模型作為白盒模型時,計算所生成對抗樣本在其他結構的視訊模型上的攻擊成功率(Attack success rate,ASR),以此作為評價名額。

研究人員分别在單步攻擊和疊代攻擊方法下進行了實驗對比。可以看出時序平移攻擊方法在單步攻擊和疊代攻擊下都能取得更高的 ASR,表明所生成的對抗樣本具有高遷移性。此外,在視訊模型上,單步攻擊的效果好于疊代攻擊。這說明,在圖像模型中發展出的遷移攻擊方法不适用于更複雜的視訊模型。最後,當使用 TPN 模型作為白盒模型時,時序平移攻擊方法的性能提升較為有限,研究人員通過分析後認為 TPN 模型對于時序移動更加不敏感。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

視訊識别模型上的 ASR 對比圖

下表展示了與 Translation-invariant(TI)攻擊方法、Attention-guided(ATA)攻擊方法和 Momentum iterative(MI)攻擊方法相結合後的性能比較。可以看出,時序平移方法可以輔助這些方法發揮更好的性能,起到補充的作用。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

結合現有方法的平均 ASR 結果對比

此外,研究人員還針對不同的平移長度L、權重w_i生成政策及平移政策進行了消融實驗。

平移長度L決定了有多少個平移後的視訊輸入被用來進行特征聚合。當L=0時,時序平移方法将會退化為最基本的疊代攻擊方法。是以,針對平移長度的研究是十分有必要的。下圖展示了不同平移長度下時序平移攻擊方法在不同黑盒模型下的 ASR 變化情況。可以看到,Non-local Resnet-50 模型的曲線更加穩定,而其他黑盒模型的曲線呈現先上升再趨于穩定的特點。這是因為 Non-local Resnet-50 與 Non-local Resnet-101 共享相似的模型結構。為了平衡 ASR 和計算複雜度,研究人員最終選取L=7來進行實驗。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

不同平移長度下的時序平移攻擊方法性能對比

下表展示的是對于權重生成政策和平移政策的消融實驗結果。從表中可以看出,當賦予具有更大時序平移長度的視訊輸入以更小的權重時,時序平移攻擊方法能取得較好的結果。此外,當平移政策變為随機幀交換或遠距離交換時,時序平移攻擊方法會取得較差的結果。

首個基于時序平移的視訊遷移攻擊算法,複旦大學研究入選AAAI 2022

不同權重生成政策和平移政策下時序平移攻擊方法的性能對比

蘇黎世聯邦理工DS3Lab:建構以資料為中心的機器學習系統

蘇黎世聯邦理工學院(ETH Zurich) DS3Lab實驗室由助理教授張策以及16名博士生和博士後組成,主要緻力于兩大研究方向,Ease.ML項目:研究如何設計、管理、加速以資料為中心的機器學習開發、運作和運維流程,ZipML項目:面向新的軟硬體環境設計實作高效可擴充的機器學習系統。

12月15日-12月22日,來自蘇黎世聯邦理工學院DS3Lab實驗室的11位嘉賓将帶來6期分享:建構以資料為中心的機器學習系統,詳情如下:

繼續閱讀