DVERGE:通過「缺陷」多樣化構建魯棒集成模型 | 楊幻睿本人解讀

  • 2020 年 11 月 12 日
  • AI

作者 | 楊幻睿
編輯 | 陳大鑫
本文是AI科技評論今日(10月20日)頭條推文《14歲考入清華,22歲博士四年級,杜克大學楊幻睿的AI成長之路》的主人公杜克大學博士生楊幻睿對他這次NeurIPS 2020 Oral 論文的親自解讀。
1

背景

最新研究表明,用於圖像識別任務的卷積神經網絡往往表現出一致的「對抗性缺陷」:對抗攻擊算法可以生成很小的輸入噪聲誤導這些模型,並且同一對抗噪聲往往可以同時誤導在同一數據集上訓練出的不同模型,即在模型間「遷移」。
對抗性訓練是一種通用的魯棒性提升算法,通過迫使模型學習「魯棒」特徵來消除其缺陷。
但這一學習過程是困難的,即使是用更大規模的模型,也會對模型識別準確率帶來不可避免的顯著降低。
另一種可行的魯棒性提升方案則是利用集成模型,只要集成模型中的每一個子模型在面對同一對抗噪聲時給出不同的輸出,即使每個子模型單獨並不魯棒,其平均得到的集成結果也有望實現高魯棒性。這一過程往往只會對模型帶來很小的識別準確率損失。
然而,前人提出的集成學習算法並不能有效多樣化子模型面對攻擊時的輸出。
鑒於此我們提出了DVERGE算法,通過提取集合模型的子模型學到的「非魯棒特徵」確定其缺陷所在,並進一步通過多樣化子模型的缺陷使其面對對抗性噪聲輸出不同的結果。
這一新穎的多樣性描述與優化方式使DVERGE得到了超出其他集成學習方法的遷移攻擊魯棒性。

2

方法

論文鏈接://arxiv.org/abs/2009.14720
對抗性攻擊及其遷移性
隨着深度學習模型在現實任務中的廣泛應用,對其安全性與魯棒性的質疑也逐漸增多。就圖像識別任務的卷積神經網絡而言,儘管它們在正常的輸入上展現了極高的準確率,但當輸入被加上了特別設計的「對抗性噪聲」時,很小的噪聲強度往往就能徹底破壞模型的識別能力。
更令人擔憂的是,這些對抗性噪聲展現出了很強的遷移性:針對一個模型生成的對抗性噪聲往往也可以成功攻擊其他在同一數據集上訓練的深度學習模型。這對提升模型的魯棒性帶來了很大的挑戰。
為了解釋這一現象,MIT的Ilyas等人提出了「魯棒」與「非魯棒」特徵的概念 (//arxiv.org/abs/1905.02175)。
正所謂「橫看成嶺側成峰」,人類往往關注於事物的形狀、顏色以及周邊環境提供的語義,並利用這些魯棒的特徵做出穩定可靠的識別。
而對於神經網絡來說,輸入的圖片不過是一系列像素點的數值,學習的目標則是找到一種最容易的將像素值映射到對應類別標籤的方法。
這就造成深度學習模型往往傾向於學到數據集中廣泛存在的「非魯棒特徵」。
這些非魯棒特徵往往與類別標籤有很強的相關性,但本身對人而言不具有意義,同時很容易受到噪聲的干擾。
對抗性攻擊正是利用了這一缺陷,以很小的噪聲擾亂了輸入圖片中的非魯棒特徵,進而影響模型的識別。
同時,同一訓練集上訓練的模型往往學到的是極其相似的非魯棒特徵,這就造成了對抗攻擊的強遷移性。
魯棒性提升:對抗訓練 vs. 集成學習
既然非魯棒特徵的存在是神經網絡魯棒性的關鍵,直觀的想法就是迫使模型只利用魯棒特徵,以此提高模型的魯棒性,這就是對抗訓練背後的原理。
然而人們很快注意到,對於神經網絡而言,學習魯棒特徵是極其困難的。對抗訓練所帶來的魯棒性提升往往伴隨着模型準確性的顯著降低,這在實際應用中並不一定划算。
那麼能否在允許模型依然使用非魯棒特徵的情況下提升模型魯棒性呢?
單個模型肯定是不行的(只要非魯棒特徵存在對抗攻擊就會得手),但對於綜合多個子模型識別結果的集成模型而言,這一點完全是可能的。
早在深度學習興起之前,研究者們就意識到即使單個模型的準確率不足,當我們集成多個模型並使得他們識別錯誤的樣本不一樣時,這些模型的平均輸出往往能帶來顯著的準確率提升。
同樣的,即使單個模型有缺陷,當我們有多個缺陷各不相同的模型時,其平均的輸出就有可能是魯棒的。因此通過集成學習提升魯棒性的關鍵,就在於促使子模型的缺陷多樣化。
這一思路是直觀的,但實際操作起來並不容易。
前人提出了多種利用模型權值、梯度或者輸出概率分佈等信息描述優化子模型間的差異的方法,但在面對對抗性攻擊時往往並不盡如人意:成功作用於一個子模型的對抗噪聲仍有很大的概率成功攻擊其他子模型,最終的集成模型魯棒性的提升也並不突出。
如上圖所示為某一測試集數據點附近的決策區域示意圖。
中心點為數據點所在位置,豎直向下方向是在另一模型上產生的對抗攻擊的方向。不同顏色對應不同的識別結果,距離中心點很近的位置出現其他顏色區域即代表模型存在缺陷,此方向易受到攻擊。
第一行中,正常訓練的3個子模型展現出一致的缺陷,因而其拼出的集成模型(最左)依然不魯棒。而在第二行中,DVERGE得到的子模型雖然仍有缺陷,但缺陷各不相同,集成在一起就得到了魯棒的集成模型。
DVERGE:非魯棒特徵提取與缺陷多樣化
正如前文所說,如何有效地描述和優化子模型間缺陷的差異性,是集成模型能否做到魯棒的關鍵。本文正是在這一點上進行了創新。
根據前文提到的Ilyas等人的觀察,我們認為模型缺陷的主要來源正是其學到的非魯棒特徵。
因此我們首先借鑒了Ilyas文章中的「非魯棒特徵提取」算法,提取子模型f_i中學到的非魯棒特徵,如下面的公式所示:

具體而言,對於一張原始圖片x_s,我們隨機抽取另一張標籤為y的圖片x,計算x在模型f_i的第l層得到的中間特徵。
通過在x_s附近小範圍內擾動其像素值得到帶噪聲圖片z,逐步縮小z與x在隱含層特徵上的差異,最終得到優化結果x’。
可以看出,這樣得到的x’看起來像原圖x_s,但因為隱含特徵相似的緣故會被子模型f_i識別為x的標籤y。因此我們說x’代表了子模型f_i學到的非魯棒特徵。
有了描述缺陷的方式,下一步就是描述並優化兩個子模型間缺陷的差異。直觀來講,對於之前提到的非魯棒特徵圖片x’,若在另一子模型f_j上也被識別為錯誤標籤y,則說明此模型擁有同樣的缺陷。
反之,如果f_i, f_j兩個模型的缺陷不同,則f_j對x’的識別結果一定與f_i不同。
基於這一思路,同時考慮到每個子模型的最終目標始終是提升自身的識別準確率,我們提出了如下所示的子模型訓練目標:
我們要求每個子模型面對其他子模型提取的非魯棒特徵圖片時,輸出這一圖片視覺上正確的標籤,即原圖x_s的標籤y_s。
因為x’與x_s極其接近,這一目標函數可以同時做到提升子模型的識別準確性並增大不同子模型間缺陷的差異性。
當我們有多個子模型時,完整的優化算法如下:
對於每一批訓練數據,我們在所有子模型上進行非魯棒特徵提取,之後依次訓練每一個子模型(如用2,3的特徵訓1;1,3的特徵訓2;1,2的特徵訓3),循環往複直到訓練收斂。
 
3

實驗結果

為方便與前人文章對比,本文選取由多個ResNet-20模型組成的集成模型,在CIFAR-10數據集上完成實驗,具體的實驗設定及更多實驗結果請參看原文。

首先展現的是集成模型中各子模型間的對抗攻擊遷移成功率。我們在一個子模型上生成對抗攻擊,並測試其是否也能誤導其他子模型。
可以看出,正常訓練的模型間攻擊遷移成功率高達96%以上。
之前的集成學習方法ADP與GAL將這一成功率降低到了60%上下,而本文的方法將子模型間的遷移成功率降低到了5%上下,幾乎杜絕了對抗攻擊在子模型間遷移,保證了最終集成結果的魯棒性。
上圖左右分別展示了集成模型訓練後整體對不同強度的黑盒攻擊(在其他模型上生成)與白盒攻擊(直接針對集成模型)的魯棒性。
每種方法的3條線分別代表使用3,5,8個子模型。
可以看出,在同樣的子模型數量下DVERGE訓練得到的模型魯棒性顯著超出了其他方法。並且隨着子模型數量增加魯棒性進一步穩步提升。

上圖展示了DVERGE與對抗性訓練相結合的結果,可以看出,結合後的模型體現出了由於對抗性訓練模型的準確率,並在黑盒攻擊與強度相對較小的白盒攻擊下均顯示出更高的魯棒性。
鑒於DVERGE鼓勵子模型學習不同的非魯棒特徵,而對抗性訓練促使模型學習魯棒特徵,這二者間存在的競爭與制衡關係將是有趣的未來研究方向。
4

個人研究興趣與未來計劃

我的科研目前主要集中在神經網絡壓縮與魯棒性這兩個方面。
在壓縮領域,我從組裡溫偉學長的結構化稀疏訓練方式出發,結合傳統的壓縮感知方法,提出了新的更有效的神經網絡稀疏化正則項DeepHoyer (//openreview.net/forum?id=rylBK34FDS),在非結構化與結構化稀疏兩個方面都超過了當時最先進的方法。
之後我嘗試將稀疏化正則項的應用從網絡稀疏化擴展至低秩分解與混合精度量化等應用領域,一起形成統一的稀疏、分解、量化同時進行的神經網絡壓縮優化框架。在魯棒性領域,我近期的研究主要集中在探索對抗攻擊遷移性的來源與應用,正是這一思路啟發了我完成本篇文章。
後續的研究將繼續深入探索本文實驗中觀察到的一些還難以解釋的現象,同時考慮將模型壓縮的方法與魯棒性提升的方法相結合,在同一的框架下探索模型識別精度、魯棒性與運行效率三者間的平衡。
我個人的研究目前還集中於基礎的訓練方法,實驗涉及的場景還局限於經典的圖像識別任務與模型。
在未來,隨着5G,物聯網,大健康,智慧城市等等概念的深入探索與落地應用,基於深度學習的方法將在越來越多的應用場景中提供服務,這也從各種方面對模型提出了更高的要求。
除模型的運行效率與魯棒性之外,我也會更多關注有關於隱私、可遷移性、可解釋性等對實際應用有重大意義的基礎方法研究,並將其與新出現的智慧醫療,智能家居等應用場景相結合,為闊步邁入嶄新的智能化時代掃清障礙。

[贈書福利]

在10月19日頭條專訪吳軍:未來10年,AI的發展方向是應用,不會出現重大的理論突破留言區留言,談一談吳軍博士對你的啟示,或你對信息技術發展的理解。

AI 科技評論將會在留言區選出 10 名讀者,每人送出《信息傳》一本。

活動規則:

1. 在留言區留言,留言點贊最高的前 10 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。

2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。

3. 本活動時間為2020年10月19日 – 2020年10月23日(23:00),活動推送內僅允許中獎一次


NeurIPS 2020論文接收列表已出,歡迎大家投稿讓更多的人了解你們的工作~

點擊閱讀原文,直達NeurIPS小組~