直播預告CVPR 2021 | 視聽感知學習魯棒性初探

直播預告CVPR 2021 | 視聽感知學習魯棒性初探


筆者:任慶


「麥格克效應」(McGurk Effect)是一種感性的認知現象,表現出在語音感知過程中聽覺和視覺之間的相互作用。相同的聲音,由不同表情的人發出同樣的聲音,接收者可能聽到不同的聲音。更奇怪的是有時當視覺看到的「聲音」與耳朵聽到的另一種聲音不匹配時,人們還會神秘的察覺到第三種聲音。

1、視聽感知學習簡介

2、視聽對抗攻擊

3、基於視聽相關性的對抗防禦

4、視聽對抗攻擊和防禦實驗驗證

圖片2.png 

 

Minimize the audio-visual similarity,最小化聲音-視頻的相似度?作為損失函數的一部分?

 圖片2.png

Lce是什麼?L應該是損失函數

 

Jacobian-based Saliency Map Attack (JSMA)基於雅可比矩陣的顯著性映射攻擊

 

筆者對論文進行了略讀,認真看了摘要,瀏覽了內容,猜測作者是不是用GAN作為基礎,對聲音與視頻的多模態數據進行對抗攻擊、防禦的闡述與實驗,具體細節看起來不是特別清楚,疑惑可能需要在直播間里詢問論文作者才能解答。

筆者的結論:本文研究了視聽模型在多模態攻擊的魯棒性。我們將多模態攻擊分為兩種不同的類別:單模態攻擊和視聽攻擊。使用視聽活動作為代理的識別任務具有不同的融合和攻擊方式方法,我們發現視聽整合多模態下不一定能增強感知魯棒性攻擊,當輸入模式不可靠時,甚至會降低性能。

我們用人類的感知系統作為指導來幫助我們開發計算模型。然而在Audio-Visual模式和真實感知之間確實存在差距,我們的研究受到現有學習工具的限制。當其他模式缺失時,人類可以從單一的模態感知事件。然而,我們的研究表明,因為AV模型嘗試從這兩種模式中充分利用信息,所以AV模型容易受到攻擊。考慮到觀察結果和我們的研究結果,一個有希望的未來方向是設計魯棒的AV模型,可以執行模態感知的攻擊預測。


論文鏈接:

//arxiv.org/pdf/2104.02000.pdf  

     直播鏈接:

//live.yanxishe.com/room/912?from=cvpr

點擊鏈接進入今晚8點的直播間

直播間海報.jpg