從概率角度看3DCNN中時空融合2020-06-23

  • 2020 年 6 月 24 日
  • AI

今日論文:Spatiotemporal Fusion in 3D CNNs: A Probabilistic View來自cvpr2020

主要工作:

1)我們第一個從概率角度研究3Dcnn網絡進行時空融合。我們提出的概率方法能夠高效地分析各種時空融合策略。並且能對時空融合進行網絡層級別,細粒度分析
2)我們提出Variational DropPath,以端到端的形式來構建概率空間。
3)根據概率空間能夠構建新的融合策略,在四個動作識別的數據集上取得state-of-the-art
4)從概率空間得到的時空融合提示具有通用性

研究背景:

在視頻應用中,如動作識別,時空融合都是其中的一個重要組成部分。在深度學習中時空融合一般分為兩類:1)採用兩流來分別提取時間和空間特徵,再加以融合。2)在單流3DCNN中融合空間和時間特徵。他們根據經驗設計的一種或幾種融合策略得出結論。每個融合策略都是固定的,預先定義的,並且在各自單獨的網絡中評估,從而導致對融合策略的分析是網絡層次的。現有的解決方案很難對大量的融合策略進行評估,也不能支持細粒度和網絡層級別的分析。

解決方案:

本文提出從概率角度來分析3Dcnn網絡的時空融合。本文將時空融合分析作為一個優化問題,目標是找到一個概率空間,在這個概率空間中,每個單獨的融合策略被視為一個隨機事件,並具有有意義的概率。概率空間滿足以下要求。首先,可以很容易地從概率空間推導出每個時空融合策略(事件)的有效性,從而可以根據所推導出的有效性對所有的融合策略進行分析,而不必訓練每個由每個融合策略定義的網絡。其次,從與每一種融合策略的性能密切相關的概率出發,它應該能夠對融合效率的進行網絡層尺度下的度量,從而使進行網絡層尺度,和細粒度分析成為可能。

圖1:3Dcnn中的時空融合。(a)已經提出的融合策略,這些方法是根據經驗設計的,並通過訓練每個相應的網絡來評估。(b)提出的概率方法。我們提出通過尋找一個概率空間來分析時空融合,在這個概率空間中,每一種融合策略都被視為具有一定概率的隨機事件。首先介紹了一種基於基本融合單元的模板網絡來支持多種融合策略。然後我們將所有可能的融合策略嵌入到由融合策略的後驗分佈定義的概率空間中。因此,可以評估/分析各種融合策略,而不需要單獨的網絡訓練來獲得網絡級觀察和層級偏好。這裡的S、ST和S + ST是基本的融合單元,分別由2D、3D和2D/3D卷積的混合實例化。

本文在3Dcnn中通過dropout構造概率空間。如圖1我們首先設計一個基於基本融合單元的模板網絡。我們將基本單位定義為3Dcnn中不同形式的時空卷積,如空間、時空和空間+時空卷積。概率空間可以由模板網絡中不同子網絡(融合策略)上的後驗分佈及其相關核權值來定義。我們提出了Variational DropPath,通過變分分佈來應用在基本融合單元上的dropout操作的概率。然後通過最小化變分分佈和後後分佈之間的Kullback-Leibler (KL)散度來推導後知分佈。一旦得到這種分佈,我們就可以從模板網絡中獲得各種融合策略。這些融合策略無需訓練就可以直接評估。此外,我們還利用推導出的概率空間來提供在時空融合網絡層級別的偏好。

方法

待續。。。