从概率角度看3DCNN中时空融合2020-06-23

2020 年 6 月 24 日
AI

今日论文：Spatiotemporal Fusion in 3D CNNs: A Probabilistic View来自cvpr2020

主要工作：

1）我们第一个从概率角度研究3Dcnn网络进行时空融合。我们提出的概率方法能够高效地分析各种时空融合策略。并且能对时空融合进行网络层级别，细粒度分析
2）我们提出Variational DropPath，以端到端的形式来构建概率空间。
3）根据概率空间能够构建新的融合策略，在四个动作识别的数据集上取得state-of-the-art
4）从概率空间得到的时空融合提示具有通用性

研究背景：

在视频应用中，如动作识别，时空融合都是其中的一个重要组成部分。在深度学习中时空融合一般分为两类：1）采用两流来分别提取时间和空间特征，再加以融合。2）在单流3DCNN中融合空间和时间特征。他们根据经验设计的一种或几种融合策略得出结论。每个融合策略都是固定的，预先定义的，并且在各自单独的网络中评估，从而导致对融合策略的分析是网络层次的。现有的解决方案很难对大量的融合策略进行评估，也不能支持细粒度和网络层级别的分析。

解决方案：

本文提出从概率角度来分析3Dcnn网络的时空融合。本文将时空融合分析作为一个优化问题，目标是找到一个概率空间，在这个概率空间中，每个单独的融合策略被视为一个随机事件，并具有有意义的概率。概率空间满足以下要求。首先，可以很容易地从概率空间推导出每个时空融合策略(事件)的有效性，从而可以根据所推导出的有效性对所有的融合策略进行分析，而不必训练每个由每个融合策略定义的网络。其次，从与每一种融合策略的性能密切相关的概率出发，它应该能够对融合效率的进行网络层尺度下的度量，从而使进行网络层尺度，和细粒度分析成为可能。

图1:3Dcnn中的时空融合。（a）已经提出的融合策略，这些方法是根据经验设计的，并通过训练每个相应的网络来评估。（b）提出的概率方法。我们提出通过寻找一个概率空间来分析时空融合，在这个概率空间中，每一种融合策略都被视为具有一定概率的随机事件。首先介绍了一种基于基本融合单元的模板网络来支持多种融合策略。然后我们将所有可能的融合策略嵌入到由融合策略的后验分布定义的概率空间中。因此，可以评估/分析各种融合策略，而不需要单独的网络训练来获得网络级观察和层级偏好。这里的S、ST和S + ST是基本的融合单元，分别由2D、3D和2D/3D卷积的混合实例化。

本文在3Dcnn中通过dropout构造概率空间。如图1我们首先设计一个基于基本融合单元的模板网络。我们将基本单位定义为3Dcnn中不同形式的时空卷积，如空间、时空和空间+时空卷积。概率空间可以由模板网络中不同子网络(融合策略)上的后验分布及其相关核权值来定义。我们提出了Variational DropPath，通过变分分布来应用在基本融合单元上的dropout操作的概率。然后通过最小化变分分布和后后分布之间的Kullback-Leibler (KL)散度来推导后知分布。一旦得到这种分布，我们就可以从模板网络中获得各种融合策略。这些融合策略无需训练就可以直接评估。此外，我们还利用推导出的概率空间来提供在时空融合网络层级别的偏好。

方法

待续。。。