天天看點

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

論文連結:添加連結描述

Method

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

OPTIMIZATION PROBLEM DESCRIPTION

X X X是浮點數域中的對抗視訊示例, X c X_c Xc​表示encoded的視訊對抗示例。設 E = X ˆ − X E = Xˆ−X E=Xˆ−X表示在對抗中增加的擾動, E c = X c − X E_c = Xc − X Ec​=Xc−X表示視訊壓縮編碼損失。

our optimization question can be presented as Eq.1:

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

y t r u t h y_{truth} ytruth​是樣本 X X X的真實标簽, y s e l e c t y_{select} yselect​是可選标簽,我們發現如果我們選擇a target label作為優化目标标簽,優化函數可以更快地收斂。但這不是目标攻擊,因為我們隻是使用所選擇的标簽來加速優化函數的收斂。标簽的選擇可以是随機的。我們稍後将介紹我們的目标攻擊。在我們的實驗中,我們選擇the label with the second-highest confidence score。 f ( ) f() f() 是受害者視訊識别模型。

ROUNDING LOSS

對于大多數視訊識别DNN模型,在訓練過程中,它們将視訊樣本從整數域歸一化到浮點數域。這樣,模型可以快速收斂。是以,以往的對抗性執行個體生成方法也是在浮點數空間中生成對抗性執行個體。

在我們的實驗中,我們發現如果我們想儲存我們的對抗圖像,歸一化引起的舍入損失(rounding loss)是不能忽略的。

To avoid this, in this paper, we add our perturbation in the original integer space,

X ˆ = X + P ∈ [ 0 , 255 ] Xˆ= X +P ∈ [0, 255] Xˆ=X+P∈[0,255]. In this way, we can easily control the scale of perturbation and retain all the perturbation.

視訊壓縮編碼

視訊壓縮編碼的過程可以描述如下: X c = D C T ( X ) Q X_c=DCT(X)Q Xc​=DCT(X)Q函數DCT()表示離散餘弦變換,并且将視訊幀從空間域spatial domain轉換到頻域frequency domain。此步驟不會造成損失。

Q表示壓縮步驟的量化矩陣。編碼過程中的無損步驟将不會在我們的算法中顯示。接下來,我們将用一個簡單的例子來解釋為什麼量化步驟會帶來損失:如果存在四個不同的像素33、34、35、36,經過量化除法後,就變成了1,1,1,1。逆量化後,這四個值将變得相同,都是32。這就造成了資訊的極大損失,表現在圖像中的是色彩空間的縮小和細節的缺乏。當需要對編碼後的視訊進行幀提取時,過程可以表示為:

X ′ = I D C T ( X c Q − 1 ) X'=IDCT(X_cQ^{-1}) X′=IDCT(Xc​Q−1)其中IDCT表示逆DCT,在此過程中,輸出資料X與X不同,存在內插補點Ec。

ADVERSARIAL ATTACK

根據上述條件,我們可以構造我們的非目标攻擊優化損失函數:

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

EXPERIMENT AND ANALYSIS

我們将分析我們的實驗方法和實驗結果,并将它們與先前的白盒攻擊對抗性示例生成方法進行比較。

度量:參考[1]的稀疏攻擊論文,我們使用四個度量來評估各個方面。

編碼前的傻瓜比率(F):被定義為成功誤分類的未編碼對抗視訊的百分比

可感覺性(P):擾動的平均尺度。本文采用L∞ 範數來度量視覺隐藏。

L2範數:表示添加的擾動的L2範數。雖然我們使用了最大擾動幅值,但是當最大擾動幅值相同時,L2範數可以很好地表示附加擾動的程度。當計算L2範數時,我們使用歸一化處理;也就是說,無論原始擾動是添加在整數RGB空間還是添加在[0,1]之間的浮點數空間中,我們都将其縮放到0和1之間以用于計算。

攻擊成功率(ASR):編碼視訊的最終攻擊成功率,并且該度量可以表示對抗樣本的最終攻擊能力。

Resistance (R):它代表了抵抗視訊編碼損壞的能力。例如,有M個未編碼的對抗性例子可以成功地攻擊模型。視訊編碼後,隻有 M ∗ ( M ∗ ≤ M ) M^*(M^* ≤ M) M∗(M∗≤M) 個視訊仍能攻擊成功,且預測标簽與編碼前的預測标簽相同,則 R = M ∗ / M R = M^*/M R=M∗/M。

untargeted attack

the attack effect of the untargeted attack adversarial examples before video compression encoding:

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

the attack effects of different algorithms after video compression encoding and the robustness against video compression encoding:

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

可見,該方法具有較好的抗視訊編碼性能。其他基于疊代的方法:如PGD和sparse attack,雖然在未編碼的對抗性例子上可以取得很高的攻擊成功率,但在編碼視訊面前卻不能保持良好的性能。

在非目标攻擊中, 視訊壓縮編碼後,上述方法仍能保持較高的攻擊成功率。然而,這并不意味着它們有很高的抵抗力。在我們的實驗中,我們發現視訊編碼之後的預測标簽不同于視訊編碼之前的預測标簽。例如,真值标簽是1,而在視訊編碼之前的敵對示例的預測标簽是2,但是在視訊編碼之後,敵對示例的預測标簽可能是3或4。雖然我們可以使用這個編碼的例子來攻擊成功,但對抗性例子的健壯性已經被破壞了。視訊編碼的過程會給視訊添加不可預測的噪聲。

是以,視訊樣本的預測的标簽将偏離到未知的地方。在讨論目标攻擊時,将進一步論證和讨論這一現象。

此外,該方法可以使用較小的擾動來獲得最高的成功率。我們認為這就是把擾動放在整數空間中的優點。當我們将擾動置于整數空間中時,歸一化後的資料将更像正态樣本,并與幹淨樣本具有相同的分布。 如果擾動被放置在浮點數空間中,則每次更新的幅度對于我們來說難以控制。在造成舍入損失的同時,分布與原始樣本不同并且也難以控制。在攻擊幅度的控制上,難度會更大。

需要注意的是,在實驗中,我們的方法在不同的視訊編碼方式下會改變擾動幅度,而其他方法不會改變。這是因為,在我們的對抗示例生成方法中,我們考慮了視訊編碼。是以,不同的視訊編碼方法會帶來不同的攻擊性能。The previous methods did not take this into consideration, only the video coding test was added in the final link, so there will be no change.

targeted attack

在編碼前,兩種方法的攻擊效果都比較好,攻擊幅度也差不多。這是非常合理的,因為有針對性的攻擊的難度明顯大于無針對性的攻擊。為了達到更好的攻擊效果,攻擊擾動的幅度會比無目标攻擊略大,但仍保持在相對較小的水準。我們的方法具有稍微高的攻擊成功率。

經過視訊壓縮編碼後,稀疏攻擊的攻擊成功率大大降低,我們的方法具有很好的抗編碼效果,編碼後的攻擊性能幾乎沒有下降。

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

對比表2和表4可以發現,視訊壓縮編碼後,目标攻擊的性能下降更為明顯。我們認為這是因為目标攻擊比無目标攻擊更難。為了使對抗樣本最終分類到我們選擇的标簽中,所需的擾動會更加精細。 值得一提的是,在無目标攻擊中,我們選取了原始輸出中分類置信度次高的标簽作為優化目标,這也在一定程度上降低了無目标攻擊的難度。當所需擾動越細時,視訊壓縮編碼對附加擾動的破壞越大。

任何細微的變化都可能影響最終的攻擊效果。在無目标攻擊中,由于選擇了置信度次高的标簽作為優化目标,使得攻擊變得更加容易。抵抗視訊壓縮編碼的能力也将變得更強。這是因為原始模型對該樣本的判斷非常接近所選标簽,并且附加視訊壓縮編碼的影響可以在很大程度上忽略。

Visual concealment:

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

For the visual effect, we will convert the perturbation in the floating-point number space to RGB space, and all perturbations less than 0 are displayed with their absolute value. And the final line is the difference between a non-coded image and a coded image, and we also converted it to RGB space for better visual. Since the added perturbation is too small, we must expand each perturbation by five times to improve its visual effect, and we gray it out to get a more obvious contrast effect. We also expand the difference image between the coded frame and non-coded frame by five times.

從圖中可以清楚地看到,我們的方法生成的對抗性例子在空間的稀疏性和對抗性擾動的幅度方面都上級以前的方法。值得注意的是,視訊編碼前後,圖像資料發生了明顯的變化和差異,

this difference is the cause of the attack ability loss of the adversarial sample.。但在我們的對抗性例子中,這種現象并沒有發生。這是因為我們的對抗示例在生成過程中優化了這種編碼損失,最小化了編碼前後的差異,并提高了對抗示例的魯棒性。

Multimedia transmission experiment

本節将展示網絡多媒體傳輸情況下 the life cycle problem of adversarial video examples。當一段視訊在網際網路上傳播時,比如上傳到YouTube、Tiktok等視訊網站,或者通過WeChat、Facebook等社交軟體分享,這些網站和軟體會對視訊進行壓縮編碼,可以降低帶寬需求。

【論文閱讀】Research on video adversarial attack with long living cycleMethodEXPERIMENT AND ANALYSISconclusion

conclusion

探讨了視訊壓縮編碼對視訊對抗執行個體的影響,提出了一種方法generating video adversarial examples that can resist attack ability against video compression encoding。該算法是一種基于優化的方法,以added perturbation、class loss,

and loss caused by video compression encoding引起的loss為優化目标。在UCF101資料集上的一系列實驗表明,視訊對抗樣本易受視訊壓縮編碼的攻擊,該方法在視覺隐蔽性、攻擊成功率、抗視訊編碼能力等方面均優先于已有的工作。未來,我們将在兩個方面進行探索。首先,利用視訊壓縮編碼的特點來檢測和防禦視訊對抗性執行個體。第二,我們可以綜合各種視訊壓縮編碼方法的特點,設計一種通用的視訊對抗執行個體生成方法。

[1]Sparse adversarial perturbations for videos. AAAI 2019

繼續閱讀