ICCV19 NEUARCH Workshop 個人總結

  • 2019 年 11 月 15 日
  • 筆記

作者:熊森特

https://zhuanlan.zhihu.com/p/89007308

本文已由作者授權,未經允許,不得二次轉載

ICCV'19 NEUARCH workshop 於2019年10月28日召開,其全稱是 Neural Architects Workshop: What have we learned and where are we going? 內容上包含了近年在神經網路架構領域上的最新進展。Barret Zoph,Ross Girshick 等(對我)耳熟能詳的大牛也給出了精彩的綜述性報告。

這個 workshop 的火爆程度可見一斑

參加NEUARCH workshop一是出於個人研究興趣,二是有一篇文章的 poster 要在這裡展示。從學習到的內容來看確實是不虛此行。

這篇文章主要是我個人參加這個 workshop 得到的一些心得體會,行文中難免有疏漏之處,請見諒 ?

Neural Architecture Search and Beyond (Barret Zoph)

這個報告是 NAS 的領軍人物 Barret Zoph 個人對 NAS 做的綜述,回顧了 NAS 技術發展的 motivation,NAS 的框架和典型應用,NAS 的性能問題以及 NAS 在數據增強問題上的擴展。

介紹 Platform-aware NAS

個人感覺比較有趣的是他描述的、用控制器-回饋函數來理解 NAS 設計的視角:控制器可以是 RNN+RL 或者進化演算法,回饋函數基於搜索到的網路架構的性能——包括但不限於識別準確度,延遲 (MnasNet),能耗,甚至移動應用安裝包的大小(在 MobileNet V3 的設計中提到)——給出進一步搜索的回饋。

(因為 poster session 太累,上午後續的兩個 talk 沒有仔細聽,這裡略過了)

Oral Presentation

下午的 session 以三篇 workshop 論文的 oral presentation 開始:

《Understanding the Effects of Pre-Training for Object Detectors via Eigenspectrum》

https://arxiv.org/abs/1909.04021

在聽這篇報告時我沒有讀論文,大意是通過分析 feature map 的 eigenvalue 的分布來理解 object detector 的訓練過程,提供了一個與 Rethinking ImageNet Pre-training 不同的視角。

《GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond》

https://arxiv.org/abs/1904.11492

這一篇拿到了 workshop 的 best paper,是對 Non-Local Neural Networks (NLNet)的改進:NLNet 的 attention 機制依經驗分析是對 global context 無效的,而使用這篇文章提出的 global context block 既可以有效提取全局資訊,又降低了計算成本。

《4-Connected Shift Residual Networks》

https://arxiv.org/abs/1910.09931

這是一篇很有意思的文章:與其使用計算量大的 spatial convolution 來提取 spatial correlation,不如直接在 spatial 維度上做平移、並利用 point-wise convolution 來同時提取 spatial 和 depth correlation。從結果來看,基於 shift 的 ResNet-101 模型的準確度沒有多大的損失,但參數量和 FLOP 都有顯著下降。

不過現場也有人提問:基於 shift 的 ResNet 的真實運算速度如何?shift 操作雖然相比於卷積減少了很多參數和計算量,但是採用 shift 能否取得真實的加速效果則取決於它的實現能否快過 cuDNN(默認運行環境是GPU)。作者誠懇的表示目前真實運算速度並不快,未來會實現訂製的 CUDA kernel。

無獨有偶,會議第三天我在 TSM: Temporal Shift Module for Efficient Video Understanding 中也注意到了(沿時域的) shift 操作,作者給出的實現方案是使用 TVM 來編譯。不知道這種做法應用在4-shift ResNet 上效果如何?

Capsule Architecture (Sara Sabour)

Sara 介紹了 Capsule Network 在電腦視覺領域的應用,內容上基本涵蓋了 Stacked Capsule Autoencoders 的內容。

為什麼 capsule 架構對電腦視覺應用有用?Sara 的觀點是:capsule 可以 model 物體 part 之間的關係,而這些 part 之間的幾何關係是建立 viewpoint-invariant 的 object recognition 模型的關鍵。對我來說都是很新穎的觀點。

From Architecting Networks to Architecting Network Generators (Ross Girshick)

Ross 的 talk 給我的啟發是最多的。核心觀點是:與其設計單一的網路架構,更重要的是設計網路架構的生成器(generator)。這個想法與 NAS 和 Saining 最新的 Exploring Randomly Wired Neural Networks for Image Recognition 有密切的聯繫。

首先,Ross 提到,我們在衡量網路性能的時候,已經從 point estimation,即訓練評估單一網路架構(如 AlexNet);過渡到 curve estimation,即衡量一組主體架構相同、但調整了深度等參數的網路(如 ResNet)。未來我們可能會傾向於 distribution estimation,即網路生成器可生成的網路的性能的分布。這樣做有利於我們通過性能的 landscape 來理解網路架構設計的 通用原則。

網路生成器的形式很簡單,本質上是從一組參數 θ 到一個網路架構(計算圖)的映射 g(θ)。這個映射可能是 deterministic 或 stochastic 的(g(θ) 的結果是一個概率分布的 sample)。

NAS 可以看作是一種 stochastic network generator

Randomly wired network 自然是一個 stochastic network generator。它的思想源頭可以追溯到早期神經網路設計原則(Turing's Connectionism),ResNet 和 DenseNet 的設計,Connectivity Learning (MaskConnect),以及基於圖論的網路設計(Deep Expander Networks)。至於具體 randomly wired network 是如何生成的,在原始的文章中有詳細的描述,在這裡不加贅述。

在 Q&A 環節,一位聽眾提出了一個我曾經也很疑惑的問題:一個網路架構之所以表現好,到底是因為它的連接關係上有可以解釋的優點,還是因為它只是更容易被優化?Ross 的觀點是,這兩者其實是密不可分的。這個觀點我十分認同:在深度學習理論尚未完善的前提下,將優化視為架構的一部分、優化配置的參數空間視為架構的搜索空間的一部分(參見Neural Optimizer Search with Reinforcement Learning),可能是最為實用穩妥的做法。

結語

神經網路架構在不斷的演進,一是隨著對特定任務理解的加深,我們可以改善神經網路的建模的方式;二是通過 NAS,或更通用的術語,network generator,在現有的深度學習「理論」的基礎上,進一步擴寬網路架構的邊界。

對我個人的研究領域來說,最重要的可能是,在設計新的壓縮、量化、編譯器優化、加速器優化的策略時,要不斷檢查這種策略是否能經過 curve 乃至 distribution estimation 的考驗。