从概率角度看3DCNN中时空融合2020-06-23
- 2020 年 6 月 24 日
- AI
今日论文:Spatiotemporal Fusion in 3D CNNs: A Probabilistic View来自cvpr2020
主要工作:
1)我们第一个从概率角度研究3Dcnn网络进行时空融合。我们提出的概率方法能够高效地分析各种时空融合策略。并且能对时空融合进行网络层级别,细粒度分析
2)我们提出Variational DropPath,以端到端的形式来构建概率空间。
3)根据概率空间能够构建新的融合策略,在四个动作识别的数据集上取得state-of-the-art
4)从概率空间得到的时空融合提示具有通用性
研究背景:
在视频应用中,如动作识别,时空融合都是其中的一个重要组成部分。在深度学习中时空融合一般分为两类:1)采用两流来分别提取时间和空间特征,再加以融合。2)在单流3DCNN中融合空间和时间特征。他们根据经验设计的一种或几种融合策略得出结论。每个融合策略都是固定的,预先定义的,并且在各自单独的网络中评估,从而导致对融合策略的分析是网络层次的。现有的解决方案很难对大量的融合策略进行评估,也不能支持细粒度和网络层级别的分析。
解决方案:
本文提出从概率角度来分析3Dcnn网络的时空融合。本文将时空融合分析作为一个优化问题,目标是找到一个概率空间,在这个概率空间中,每个单独的融合策略被视为一个随机事件,并具有有意义的概率。概率空间满足以下要求。首先,可以很容易地从概率空间推导出每个时空融合策略(事件)的有效性,从而可以根据所推导出的有效性对所有的融合策略进行分析,而不必训练每个由每个融合策略定义的网络。其次,从与每一种融合策略的性能密切相关的概率出发,它应该能够对融合效率的进行网络层尺度下的度量,从而使进行网络层尺度,和细粒度分析成为可能。
本文在3Dcnn中通过dropout构造概率空间。如图1我们首先设计一个基于基本融合单元的模板网络。我们将基本单位定义为3Dcnn中不同形式的时空卷积,如空间、时空和空间+时空卷积。概率空间可以由模板网络中不同子网络(融合策略)上的后验分布及其相关核权值来定义。我们提出了Variational DropPath,通过变分分布来应用在基本融合单元上的dropout操作的概率。然后通过最小化变分分布和后后分布之间的Kullback-Leibler (KL)散度来推导后知分布。一旦得到这种分布,我们就可以从模板网络中获得各种融合策略。这些融合策略无需训练就可以直接评估。此外,我们还利用推导出的概率空间来提供在时空融合网络层级别的偏好。
方法
待续。。。