直播预告CVPR 2021 | 视听感知学习鲁棒性初探

直播预告CVPR 2021 | 视听感知学习鲁棒性初探


笔者:任庆


“麦格克效应”(McGurk Effect)是一种感性的认知现象,表现出在语音感知过程中听觉和视觉之间的相互作用。相同的声音,由不同表情的人发出同样的声音,接收者可能听到不同的声音。更奇怪的是有时当视觉看到的“声音”与耳朵听到的另一种声音不匹配时,人们还会神秘的察觉到第三种声音。

1、视听感知学习简介

2、视听对抗攻击

3、基于视听相关性的对抗防御

4、视听对抗攻击和防御实验验证

图片2.png 

 

Minimize the audio-visual similarity,最小化声音-视频的相似度?作为损失函数的一部分?

 图片2.png

Lce是什么?L应该是损失函数

 

Jacobian-based Saliency Map Attack (JSMA)基于雅可比矩阵的显著性映射攻击

 

笔者对论文进行了略读,认真看了摘要,浏览了内容,猜测作者是不是用GAN作为基础,对声音与视频的多模态数据进行对抗攻击、防御的阐述与实验,具体细节看起来不是特别清楚,疑惑可能需要在直播间里询问论文作者才能解答。

笔者的结论:本文研究了视听模型在多模态攻击的鲁棒性。我们将多模态攻击分为两种不同的类别:单模态攻击和视听攻击。使用视听活动作为代理的识别任务具有不同的融合和攻击方式方法,我们发现视听整合多模态下不一定能增强感知鲁棒性攻击,当输入模式不可靠时,甚至会降低性能。

我们用人类的感知系统作为指导来帮助我们开发计算模型。然而在Audio-Visual模式和真实感知之间确实存在差距,我们的研究受到现有学习工具的限制。当其他模式缺失时,人类可以从单一的模态感知事件。然而,我们的研究表明,因为AV模型尝试从这两种模式中充分利用信息,所以AV模型容易受到攻击。考虑到观察结果和我们的研究结果,一个有希望的未来方向是设计鲁棒的AV模型,可以执行模态感知的攻击预测。


论文链接:

//arxiv.org/pdf/2104.02000.pdf  

     直播链接:

//live.yanxishe.com/room/912?from=cvpr

点击链接进入今晚8点的直播间

直播间海报.jpg