首頁> 網絡焦點>正文

Hinton團隊膠囊網絡新進展:兩種方法加持,精準檢測和防御對抗性攻擊

2020/3/31 15:09:01 來源:互聯網 編輯:匿名

選自arXiv

作者:Yao Qin、Geoffrey Hinton等

機器之心編譯

參與:王子嘉、Geek AI

2017 年,圖靈獎獲得者 Hinton 提出的膠囊網絡為深度學習研究開啟了一扇新的大門。此后,對膠囊網絡的探索便一直是該領域最前沿的研究話題。2018 年 11 月,Hinton 團隊曾在論文「DARCCC:Detecting Adversaries by Recontruction from Class Conditional Capsules」中提出通過圖像重建網絡監測對抗性攻擊的方法。上個月,Hinton 團隊再發力作,進一步完善了膠囊網絡在機器學習安全領域的應用。


論文地址:https://arxiv.org/abs/2002.07405

引言

在本文中,我們提出了一種基于膠囊層(Capsule layer,Sabour et al., 2017; Qin et al., 2020)的網絡和檢測機制,它可以精確地檢測到攻擊,對于未檢測到的攻擊,它通常也可以迫使攻擊者生成類似于目標類的圖像(從而使它們被偏轉)。我們的網絡結構由兩部分組成:對輸入進行分類的膠囊分類網絡,以及根據預測的膠囊(predicted capsule)的姿態參數(pose parameters)重建輸入圖像的重建網絡。


圖 3:具有循環一致性的勝出的膠囊重建(cycle-consistent winning capsule reconstructions)網絡架構。

除了(Sabour et al., 2017; Qin et al., 2020)中使用的分類損失和 L2 重建損失外,我們還引入了一個額外的循環一致性訓練損失,該訓練損失迫使勝出的膠囊重建結果的分類與原始輸入的分類相同。這種新的輔助訓練損失促使重建更嚴格地匹配有類別條件的分布,而且也對模型檢測和偏轉對抗攻擊有所幫助。

此外,我們基于對干凈的輸入和對抗性輸入的勝出膠囊重建之間的差異,提出了兩種新的攻擊不可知的檢測方法。我們證明,在 SVHN 和 CIFAR-10 數據集上,基于三種不同的變形度量——EAD(Chen et al.,2018)、CW(Carlini & Wagner, 2017b)和 PGD(Madry et al.,2017)證明了,該方法可以準確地檢測白盒和黑盒攻擊。

檢測方式

在本文中,我們使用三種基于重建的檢測方法來檢測標準攻擊。這三種方法分別是:(1)最早由 Qin 等人在 2020 年提出的全局閾值檢測器(Global Threshold Detector,GTD),局部最優檢測器(Local Best Detector,LBD)和循環一致性檢測器(Cycle-Consistency Detector,CCD)。

全局閾值檢測器

當輸入被對抗性攻擊擾動時,對輸入的分類結果可能是不正確的,但是重建結果常常是模糊的,因此對抗性輸入和重建結果之間的距離比期望的正常輸入與重建結果之間的距離要大。這使得我們可以通過全局閾值檢測器檢測出對抗性輸入。這種 Qin 等人于 2020 年發表的論文中提出的方法,測量了輸入與勝出膠囊的重建結果之間的重建誤差。如果重建誤差大于全局閾值 θ:


那么輸入就會被標記為對抗性樣本。

局部最優檢測器

當輸入是一個干凈的(clean)圖像時,勝出膠囊的重建誤差小于失敗膠囊的重建誤差,相關示例如圖 4 的第一行所示。

然而,當輸入是一個對抗示例時,與勝出的膠囊對應的重建結果相比,從對應于正確標簽的膠囊進行重建的結果更接近于輸入(見圖 4 中的第二行)。


圖 4:干凈輸入的示例,通過 PGD 攻擊生成的對抗性示例,以及每個類的膠囊對干凈輸入和對抗性輸入的重構。

因此,我們提出利用「局部最佳檢測器」(Local Best Detector,LBD)檢測出這些對抗性圖像,它們由勝出的膠囊產生的重構誤差并非最小:


其中,n 是數據集中類的數量。

循環一致性檢測器

如果輸入是一個干凈的圖像,勝出的膠囊的重建結果會和輸入很相似。理想情況下,我們的模型應該將獲勝膠囊的重建結果和干凈的輸入標注為同樣的類別。這種行為通過使用循環一致性損失的訓練得以強化。

然而,當輸入是一個對抗性示例時,它與干凈的圖像在視覺上難以區分,但又迫使模型將其預測為目標類別。勝出膠囊的重建結果往往看起來更接近干凈的輸入,或是變得模糊。因此,獲勝膠囊的重建結果往往不會被歸類為目標類別。

因此,循環一致性檢測器(Cycle-Consistency Detector,CCD)被設計用來在輸入 x 與其勝出的膠囊的重建結果并沒有被判定成同一類時,將 x 標注為對抗性樣本。

能夠感知防御機制的 CC-PGD 攻擊

為了生成這樣的攻擊,我們在(Qin et al.,2020)的基礎上,在每個梯度步上設計了包含兩個階段的攻擊。第一個階段試圖通過遵循標準攻擊(例如,標準 PGD 攻擊)來欺騙分類器,該攻擊的損失為其相對輸入的交叉熵損失。然后,在第二階段,我們重點關注通過考慮重構誤差和循環一致性,來欺騙檢測機制。

實驗

在提出新的防御模型后,我們首先在 SVHN 和 CIFAR10 數據集上驗證它對各種攻擊的檢測性能。然后,我們使用通過人工研究來證明我們的模型經常迫使未被發現的攻擊被偏轉。

評價指標及數據集

在本文中,我們使用準確率(accuracy)來表示被我們的網絡正確分類的干凈示例的比例。我們使用成功率(成功欺騙檢測器將其預測為目標類別的對抗性示例的比例)來衡量攻擊的性能。

為了評估不同檢測機制的性能,我們同時給出了假陽性率(False Positive Rate,FPR)和漏檢率。

最后,我們進行了一項人工研究,以表明我們的模型能夠有效地偏轉對抗性攻擊。

訓練細節與測試集準確率

我們將 batch 的大小設置為 64,學習率設置為 0.0001,從而在 SVHN 上訓練網絡。使用 CIFAR-10 中的數據進行訓練時,batch 大小則被設置為 128,學習率為 0.0002。我們使用 Adam 優化器(Kingma & Ba,2014)來訓練所有的模型。

我們在 SVHN(Netzer et al.,2011)和 CIFAR-10 數據集(Krizhevsky,2009)上測試了偏轉模型。在針對干凈樣本數據集的測試中,在 SVHN 上的分類準確率為 96.5%,在 CIFAR-10 上的分類準確率為 92.6%,這些結果說明我們的偏轉模型在干凈圖像的分類任務上性能優異。

威脅模型

在本文中,我們考慮了兩種常見的威脅模型:白盒模型和黑盒模型。對于白盒攻擊,攻擊者完全了解網絡結構和參數,可以通過計算模型輸出相對于輸入的梯度來構造對抗性攻擊。在黑盒模型的環境下,攻擊者知道目標模型的網絡架構,但不能直接獲取模型的參數。

為了生成針對目標模型的黑盒攻擊,在具有相同網絡結構的替代模型上進行訓練,并進一步受到白盒攻擊的攻擊,然后將白盒攻擊作為黑盒攻擊轉移到目標模型中。

對抗性攻擊

我們測試了在攻擊不可知情況下,三種基于不同距離度量的標準目標攻擊檢測機制:基于 L1 范數的 EAD(Chen et al.,2018),基于 L2 范數的 CW(Carlini & Wagner,2017b)以及基于 L∞ 范數的 PGD(Madry et al.,2017)。此外,我們按照(Carlini & Wagner,2017a)中的建議,匯報了我們的檢測機制檢測能夠感知防御的攻擊時的性能。

PGD 和 CC-PGD 攻擊的健壯性檢測

在本節中,我們完成了基本的健壯性檢測,以確保對抗性攻擊的真正實現,并且確保我們提出的能夠感知防御的 CC-PGD 得到了很好的調優。我們在 CIFAR-10 數據集上測試針對我們提出的偏轉模型的攻擊。類似的結論在 SVHN 數據集上也成立。

圖 5(a)顯示了在 CIFAR-10 數據集上,白盒 PGD 和 CC-PGD 的成功率隨著迭代次數的增加而變化。在圖 5(b)中,我們發現白盒 PGD 和 CC-PGD 的成功率隨著對抗性擾動 E∞ 的 L∞ 界的增大而變化。在圖 5(c)中,我們在 CIFAR-10 數據集上,針對我們的偏轉模型分別使用一階段和兩階段優化構建了能夠感知防御機制的 CC-PGD。


圖 5。

模型簡化實驗

在圖 10 中,我們繪制了不同檢測器標記的白盒對抗攻擊的漏檢率與干凈輸入的假陽性率。


圖 10。

為了證明本文提出的循環一致性損失的有效性,我們構建了一個基線膠囊模型,該模型與我們的偏轉模型具有相同的網絡結構,但經過不使用額外的循環一致性損失的訓練。

圖 5(d)顯示了,在 CIFAR-10 數據集上,能夠意識到防御機制的白盒攻擊的漏檢率與干凈輸入的假陽性率(FPR)。

檢測白盒攻擊

如圖 7 所示,對于 SVHN 和 CIFAR-10 數據集上,我們的檢測方法對于所有三種標準白盒攻擊(EAD、CW 和 PGD)的漏檢率都非常小。其中,PGD 對我們的檢測機制的攻擊最強,在 FPR 相同時的漏檢率最高。


圖 7:在 SVHN 和 CIFAR-10 數據集上,白盒和黑盒攻擊的漏檢率與干凈輸入的假陽性率(FPR)。最強攻擊的線下面積最大。

盡管我們可以清楚地看到,與標準的 PGD 攻擊相比,CC-PGD 的漏檢率增加了。然而,如表 1 所示,在 SVHN 上,白盒 CC-PGD 的成功率卻顯著下降(從 PGD: 96.0% 到 CC-PGD: 69.0%)。這說明攻擊者需要犧牲一定的成功率才能不被我們的檢測機制檢測到。


表 1。

從表 2 可以看出,雖然統計檢驗(Roth et al.,2019)和基于分類器的檢測方法(Hosseini et al.,2019)可以成功地檢測到標準攻擊,但是它們對于能夠感知防御的攻擊的檢測則都失敗了。相比之下,我們提出的基于重建的檢測機制在檢測能夠感知防御的對抗性攻擊時的漏檢率是最小的,在檢測 CW 攻擊方面的漏檢率僅為 4.6%。


表 2:在 CIFAR-10 數據集上,與目前最先進的檢測方法的漏檢率的比較。

檢測黑盒攻擊

為了研究我們的檢測機制的有效性,我們還在黑盒攻擊上測試了我們的模型。在圖 7 中,我們可以看到,在這兩個數據集上,當輸入為黑盒 CC-PGD 攻擊時,漏檢率僅為白盒 CC-PGD 的一半。

此外,如表 1 所示,白盒攻擊和黑盒攻擊的成功率有巨大差距,這就表明我們的防御模型顯著降低了各種對抗性攻擊的可遷移性。

偏轉攻擊

在 SVHN 上進行人工研究

為了驗證我們的方法可以偏轉對抗性攻擊的說法,我們進行了一項人工研究。我們使用亞馬遜土耳其機器人網絡服務招募參與者,并要求人們標記 SVHN 數字。結果如圖 8 所示。


圖 8:在 SVHN 上的人工研究結果。最大的 L∞ 擾動為 16/255。

此外,與白盒攻擊相比,更多在黑盒環境下生成的未被檢測到的、成功的對抗性攻擊會被偏轉,從而變得與目標類相似。這表明,要在更真實的場景(黑盒)下攻擊我們的偏轉模型,攻擊將被偏轉以避免被檢測到,如圖 9 所示。


圖 9:在 SVHN 和 CIFAR-10 上被偏轉的對抗性攻擊。SVHN 的最大 L∞ 擾動為 16/255,CIFAR-10 的最大 L∞擾動為 25/255。

CIFAR-10 上的偏轉攻擊

為了證明我們的模型可以在 CIFAR-10 數據集上有效地偏轉對抗性攻擊,我們為每個類選擇了一個偏轉后的對抗性攻擊,其最大 L∞范數為 25/255,如圖 9 所示。

很明顯,為了欺騙分類器和我們的檢測機制,干凈的輸入已經被擾動,具有目標類的代表性特征。實驗結果表明,我們的模型也成功地偏轉了這些對抗性攻擊。

本文為機器之心編譯,轉載請聯系本公眾號獲得授權。

------------------------------------------------

加入機器之心(全職記者 / 實習生):[email protected]

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:[email protected]

熱門推薦

  • 男人世界
  • 幽默搞笑
  • 未解之謎
  • 探索圖庫
  • 熱點新聞
  • 大話社區
  • 圖片報道
本站內容來自互聯網,不提供任何保證,亦不承擔任何法律責任.
COPYRIGHT ? 2014-2020 xiaoqiweb.com INC. ALL RIGHTS RESERVED.廣告合作聯系QQ:759281825. 版權所有 笑奇網粵ICP備17087216號-3
六合图库东方心经