ECCV 2020 亮點摘要

  • 2020 年 12 月 28 日
  • AI

譯者:AI研習社(Champagne Jin季一帆

雙語原文鏈接:ECCV 2020: Some Highlights


2020年歐洲電腦視覺會議(ECCV)於8月23日至28日在線舉行。本次會議共接收1360篇論文,包括104場orals,160場spotlights以及1096篇posters,共進行有45場workshops和16場tutorials。就像其他ML和CV會議一樣,大量論文無法完全了解。因此就本次會議,進行了類似CVPR2020 post 的總結,以便讀者可以從中了解會議總體趨勢。因此,本文會對這次會議進行概括,並列出一些我覺得有趣、重要的論文。

首先,會議相關的鏈接包括:

免責聲明:本文僅代表個人觀點,並不代表ECCV 2020論文及主題。歡迎任何回饋!

整體統計概況

本節中提供的統計數據摘自官方的Opening&Awards演示文稿。

可以看到,與2018年會議相比,論文提交量增加了超過一倍,與CVPR 2020的論文數量相當。隨之相應,審稿人數和涉及領域也相應增加。

不出所料,大多數接受論文集中於深度學習、識別、檢測和理解相關主題。同時可以發現,研究人員對諸如無監督學習的標籤有效方法和低視野等領域的興趣顯著增加,同樣的結果在CVPR2020中也有所體現。

對研究機構進行統計,其結果與今年的ICML相似:排名第一的Google有180位作者,其次是香港中文大學的140位作者,第三是北京大學的110位作者。

後續章節我們將基於研究主題簡要介紹一些論文。

識別,檢測,分割以及姿態估計

End-to-End Object Detection with transformers (論文地址)

目標檢測的任務即在給定影像中對可見物體進行定位並分類。目前廣泛使用的目標檢測框架都含有一系列預先定義的方框(也就是稱作 anchors 或是 region proposals 的幾何先驗框),各個框中的影像內容將由網路進行分類,在這之後,還會進一步回歸來對邊界框做調整,最後,交由後處理去除重複的檢測結果。然而,由於引入了後處理,整個網路並不能像其他電腦視覺任務一樣進行端到端的訓練。而在這篇文章中,作者們提出了一個新的目標檢測框架,叫做 DETR (DEtection TRansformer) ,這是一個可完全端到端訓練的網路模型,且無需任何幾何先驗知識。下圖是 DETR 與 Faster R-CNN 計算流程的對比(該圖是從作者們的展示文稿中獲取的),強調了 DETR 整體的自然性。

DETR 是基於編碼-解碼的 Transformer 結構構造的。整個模型包含三大組件:卷積神經網路特徵提取器,編碼器,以及解碼器。一張給定影像會先經過特徵提取器以獲取影像特徵。接著,使用不同頻率的sin函數生成的位置編碼資訊會加到影像特徵上以維護影像的二維結構資訊。得到的新特徵會經過 Transformer 的編碼器來整合特徵資訊並將不同的目標分開來。到了解碼階段,目標查詢向量會與編碼向量一同經過解碼器併產生最終的輸出特徵向量。這些查詢向量是一組固定的可學習的嵌入向量(embedding),剛開始隨機初始化,在訓練過程中進行優化,評測階段則保持不變,而查詢向量的數量也決定了該檢測器能夠檢測的目標數量上界。最終,輸出的特徵向量會經過一個共享的全連接層來預測每個查詢對應的類別與邊界框。為了計算損失並訓練該模型,作者使用了 匈牙利演算法 將輸出與標註一一匹配。

MutualNet: Adaptive Convnet via Mutual Learning from Network Width and Resolution (論文地址)

傳統神經網路只有在計算資源足夠的情況下才能夠使用,如果計算資源無法滿足,模型就無法使用。然而,這就使得實際應用中模型的使用頗為受限。比方說,如果模型要在手機上進行前向推理,計算資源會隨手機負載以及電量而變化。一個簡單的解決方案就是在設備端保存多個不同大小尺寸的模型,並在不同計算資源情況下使用對應的模型。但是如此一來就會佔據大量記憶體空間,並且也無法做到適用於不同的計算資源。近期類似於 S-Net 與 US-Net 的網路在訓練期間取樣不同大小的子網路,使得網路在部署階段可以調整為不同的網路寬度(也就是通道數量)。但是在非常有限的計算資源下,這類網路的性能顯著下降。

這篇論文則藉助於不同尺寸的網路與輸入影像,以尋求準確度與計算效率的平衡。如上圖所示,在一次訓練迭代過程中,會取樣四個子網路,其中一個是完整的網路,還有三個具有不同寬度的子網路。完整的網路使用原始大小的影像數據與標籤進行交叉熵損失訓練,其餘三個則隨機輸入不同尺度的影像(原始影像或是尺度下取樣後的影像),並使用他們的輸出與完整網路的輸出之間的KL散度進行監督訓練(也就是蒸餾損失)。這樣一來,每個子網路就能夠學會適應不同網路尺寸與輸入大小的多尺度表達。在部署過程中,對於一個給定的資源約束場景,即可選擇最優的網路尺寸與輸入大小組合用於推理。

Gradient Centralization: A New Optimization Technique for Deep Neural Networks (論文地址)

在神經網路優化過程中使用類似於均值與方差這樣的二階統計數據來對網路激活值或是權重做形式標準化已然成為神經網路訓練過程中極為重要的一環,例如常用的 BatchNorm 和 weight norm。相較於使用額外的歸一化模組作用於激活值或是權重,梯度中心化(Gradient Centralization,簡稱GC)直接作用於梯度,使得梯度向量的均值為0,該操作可以平滑並加速神經網路的訓練過程,甚至提升模型的泛化性能。

給定計算得到的梯度,GC首先如上圖所示計算梯度向量的均值,接著減去對應的均值。數學形式上,對於一個權重向量 Wi,其對應的梯度為∇Wi(i=1,2,…,N),則GC操作可定義為:

Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval (論文地址)

影像檢索旨在一個影像集合中檢索與查詢影像相同類別的影像數據。與分類任務不同,影像檢索任務中,測試影像的類別在訓練過程中都已經見到過了,測試影像的類別可能會很少見,但是我們仍需在影像集合中找到與之相似的影像,這也就是一個開集問題。影像檢索的一般流程包括使用CNN特徵提取器對檢索影像、以及整個影像集合提取其各自的嵌入向量,接著計算兩兩之間的餘弦相似度,最後根據相似度進行排序。特徵提取器的訓練目標就是要達到良好的排序效果(即屬於同一類別的影像相似度應儘可能高)。而網路的性能則是使用 Average Precision (AP) 來度量的,該指標計算每個正確檢索結果的名次與其在整個影像集合中的名次之比並對其求和。計算一張給定影像的名次需要應用一個閾值化操作,該操作用到了海維賽德階躍函數,使得其不可微分,所以我們無法直接使用最終排名來端到端地優化模型。

為了解決這個問題,論文作者們提出了使用一個溫度參數控制的sigmoid函數來代替海維賽德階躍函數,使得排序可微,並可作為損失函數來端到端地優化網路模型。相較於三元組損失函數,smooth-AP 損失函數優化的是一個排序損失,而三元組損失則是在間接地進行優化。

Hybrid Models for Open Set Recognition (論文地址)

現有的影像分類方法往往基於閉集假設,也就是說,訓練集中涵蓋了測試階段可能出現的所有類別。但是這種假設很明顯不現實,哪怕是像ImageNet這樣擁有1000類物品的大規模數據集,也不可能包含現實世界中所有可能的類別。如此一來,自然地出現了開集分類,其試圖通過假設測試階段包含見過的以及沒有見過的類別來解決這個問題。

在這篇論文中,作者們使用流模型來解決這個開集分類問題。流方法通過最大似然估計,以一種無監督訓練的方式擬合訓練樣本的概率分布。因此,流模型可以用於估計每個樣本的概率密度。當輸入樣本的概率密度很大的時候,那麼其很有可能是一個已知樣本,而離群點的概率密度則較小。之前的研究方法都是基於流模型搭建一個分類器,而該論文的作者們讓分類器和流模型學習一個聯合嵌入向量,因為僅僅由流模型學到的嵌入向量很可能不具有充足的判別特徵,使得分類效果很差。如上圖所示,在訓練期間,影像會由一個編碼器網路映射為一個隱特徵,接著這個編碼特徵會同時被送入分類器與流模型中,分類器端使用交叉熵損失進行監督,流模型端則負責概率密度估計。整個網路架構是可端到端訓練的。在測試階段,每張影像的 logP(x) 都會由前傳得到,並與訓練集樣本的最低 logP(x) 進行比較。如果其值大於該閾值,則送入分類器判斷其具體類別,否則就視為未見過的樣本。

(譯者註:有關 Flow-based Models ,可以參看李宏毅的講解影片,非常有趣。)

Conditional Convolutions for Instance Segmentation (論文地址)

實例分割仍舊是電腦視覺領域頗具挑戰性的任務之一,它需要對給定影像中每個可見目標打上一個逐像素的掩膜(mask)以及一個類別標籤。主流方法就是大名鼎鼎的 Mask R-CNN ,它包含兩個步驟,第一步是用目標檢測器 Faster R-CNN 來生成每個實例的邊界框,接著,對於每個檢測到的實例,使用 ROI Align 將感興趣區域從輸出特徵圖中裁剪出來並縮放為同一解析度大小,接著,將其送入一個掩膜頭網路(mask head),該網路是一個小型全卷積網路,用以預測分割掩膜。然而,本論文作者指出了該架構的以下缺陷:(1) ROI Align 很可能會引入不相關的特徵資訊,如背景或是其他實例;(2) 縮放操作限制了實例分割的解析度;(3) 掩膜頭網路需要堆疊多個 3×3 卷積來產生足夠大的感受野以生成掩膜,這極大得增加了掩膜頭的計算量。

在本篇論文中,作者們提出了使用語義分割網路中的 FCN 來進行實例分割。為了進行有效的實例分割,FCN 需要兩種資訊,一是表觀資訊用於目標分類,二是位置資訊用於區分同一類別的不同目標。該論文提出的網路結構名為 CondInst (用於實例分割的條件卷積),是基於 CondConv 以及 HyperNetworks 構建而成的。對於每個實例,一個子網路會根絕每個實例所在的中心區域生成掩膜 FCN 頭網路的權重,用於預估給定實例的掩膜。具體來收,如上圖所示,該網路中,在特徵圖的多個不同尺度下包含多個掩膜頭。每個頭網路在預定義的位置處預測給定實例的類別,並生成掩膜 FCN 頭網路的權重。接著,就由各個頭網路使用對應的參數進行掩膜預估。

Multitask Learning Strengthens Adversarial Robustness (論文地址)

深度神經網路的一大主要缺陷就在於它們對於對抗攻擊來說異常脆弱,在輸入影像中引入極為微小且不可見的擾動就會導致完全錯誤的輸出,甚至輸入的表觀肉眼看來幾乎完全一致。近些年,研究人員已從多個層面深入探討神經網路的對抗魯棒性,從輸入數據(例如使用無標籤數據以及對抗訓練)到模型本身(使用正則化,例如 Parseval Networks),但是網路模型的輸出還未被用於提升模型魯棒性。在這篇論文中,作者們研究了擁有多個輸出的多任務學習模型在對抗魯棒性上的效果。鑒於越來越多的機器學習應用需要模型能夠同時一次性完成多個任務,這樣的設置在實際任務中是有用的。

使用有界p範式球攻擊方式,即對於一個給定輸入樣本,在給定半徑的p範式球內找到對抗擾動。接著,將計算得到的總損失變化視作網路的脆弱度。作者們展示了雙任務訓練下網路魯棒性的提升(兩個任務可從以下任務中隨機選擇:分割、深度估計、法向量估計、reshading、輸入重建、2D或3D關鍵點預測等等)。在單任務攻擊(即根據其中一個輸出計算的擾動)以及多任務攻擊(即根據所有輸出計算的對應擾動中的最大擾動)下可以看到網路的魯棒性提升。作者同時在理論上證明了這樣的多任務魯棒性僅在多個任務具有相關性的情況下可以達到。

Dynamic Group Convolution for Accelerating Convolutional Neural Networks (論文地址)

分組卷積首次出現還要追溯到AlexNet,當時分組的目的是為了加速訓練,之後,這一技術被應用於輕量級CNN網路設計中,如 MobileNet和 ShuffleNet 。分組卷積將卷積層的輸入和輸出沿著通道維等量切分為多個部分(或者說是組),接著對每個組單獨做卷積操作。因此,若是切分為 G 組,那麼運算量也就減少了 G 倍。然而,該篇論文的作者們指出現有的分組卷積有兩個主要缺陷:(1) 現有分組卷積稀疏化了神經網路的連接,致使卷積操作的特徵提取於表達能力明顯弱化;(2) 現有分組卷積對輸入通道做固定的分組操作,忽視了各個輸入之間的相關性。

為了適應性地選擇最相關的輸入通道構成組並保持原始網路的完整結構,作者們提出了動態組卷積(DGC)。DGC包含兩個頭網路,每個頭網路根據輸入為每個通道生成一個顯著性分數。分數較低的通道會被移除。接著,對餘下的特徵層進行普通卷積並得到輸出。最後,各個頭網路的輸出會在通道為級聯起來並隨機調換通道位置。

Disentangled Non-local Neural Networks (論文地址)

Non-local 模組使用注意力機制,對長距離像素之間的依存關係進行建模,並已經廣泛應用於諸多電腦視覺任務,例如目標檢測、語義分割以及影片動作識別。

在本篇論文中,作者們試圖進一步解析 non-local 模組,發現其局限性,並提出了一個升級版本。首先,作者們將像素 i (也就是所謂的 key 像素)與像素 j (也就是所謂的 query 像素)之間的相似度計算為兩項之和,其中一項是成對項,形式上就是一個白化後的點積結果,描述了 query 像素與 key 像素之間的關係,另一項則是一個一元項,表徵了給定的 key 像素對哪個 query 像素影響最大。接著,為了搞清楚每一項的作用,他們分別只用其中一項進行訓練,並發現成對項負責類別資訊,一元項負責邊界資訊。然而,通過對 non-local 模組的梯度進行分析,作者們發現當上述兩項結合起來應用於注意力操作時,他們的梯度相乘了。這也就導致,如果其中一項的梯度為0,那麼另一個項不為0的梯度對網路的訓練也起不到作用了。為了解決這個問題,作者們提出了一個 non-local 模組的分解版,使得這兩項能夠分開來優化。

Hard negative examples are hard, but useful (論文地址)

深度度量學習旨在優化一個嵌入函數,使得經過該函數映射後語義相似的影像會處在高維空間中相對較近的位置,而語義不相似的影像則使其映射後的距離較遠。一種較為常用的學習該映射的方法是根據影像的三元組定義一個損失函數,這個三元組包含一張錨影像,一張與錨影像同一類別的正樣本影像,以及一張與錨影像不同類別的負樣本影像。接著,在優化過程中,模型會在錨影像與負樣本影像的距離小於錨影像與正樣本影像的距離時給予懲罰。然而,在優化期間,大多數候選三元組都已然達到了標準,即錨影像與正樣本的距離小於其與負樣本的距離,這也就使得這些三元組對訓練幾乎起不到太大作用,很冗餘。另一方面,使用最困難的負樣本進行優化又會導致在訓練初期陷入局部最優。這是由於在這種情況下,根據餘弦相似度(即歸一化特徵向量的點積結果)計算得到的錨-負樣本的相似度比錨-正樣本的相似度大很多。

作者們展示了三元組損失的標準實現中使用困難樣本挖掘的問題所在。具體來說,(1) 在梯度計算中,如果歸一化不被考慮的話,大部分梯度會丟失掉;(2) 如果兩張不同類別的影像在嵌入空間中的距離非常接近,那麼損失的梯度很可能將其拉得更近而非將其分得更開。為了解決這個問題,作者們不再像原始三元組損失那樣儘可能地將錨-正樣本對拉得更近以便將其更加緊密地聚類,相反,作者們會避開更新錨-正樣本對的損失梯度,也就使得某一類的實例構成的聚類不會過於緊緻。這個方法僅僅集中於直接將困難負樣本拉離錨影像。

Volumetric Transformer Networks (論文地址)

卷積神經網路(CNN)成功的一個關鍵因素就在於其學習語義目標各個部件判別性特徵表達的能力。然而,CNN仍舊缺乏處理不同空間變換的能力,例如尺度、視點以及類內變化。近期的一些方法,例如 spatial transformer networks (STNs) 試圖通過先對空間分布不同的特徵圖變形,使其變為標準形式來抑制影像的空間變換,接著,再對這些標準化後的特徵做分類。但是這樣的方法對所有的特徵通道做相同的變形操作,卻沒有考慮到各個特徵通道會表徵不同的語義組件,將其變換為標準形式也就需要不同的空間變換操作。

為了解決這個問題,該篇論文引入了 Volumetric transformer network (VTN),如上圖所示,一個可學習的模組會對每個通道的每個像素位置預測一個形變變換,用於將中間的 CNN 特徵變換為一個空間位置無關的標準形式。VTN是一個編碼器-解碼器結構的網路,其中的網路模組用於在不同的特徵圖通道之間傳遞資訊,以估計不同語義組件之間的依賴關係。

Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation (論文地址)

數據增廣(DA)已然變成了深度學習方法中極為重要且不可或缺的一部分,而近期的一些研究工作表明搜索演算法得到的數據增廣策略(例如 AutoAugmentFast AutoAugment 以及 RandAugment)優於標準的增強增廣方法。這類演算法預先定義好所有可能的數據變換集合,比如幾何變換(如旋轉)或是色彩增強變換(如負感化),旨在找到最優的數據增廣參數,比如增廣的幅度、數據增廣的概率以及不同數據增廣手段的組合數量,如下方左圖所示。最優策略是由一個雙優化循環學習得到的,以便使得一個使用給定策略訓練的卷積神經網路的驗證誤差最小。然而,這樣的優化方法頗具弊端,可能的數據增廣策略搜索空間過於龐大,需要複雜的搜索方法,而且單次數據增廣策略的優化就需要網路做完整訓練。為了解決這個問題,這篇論文的作者提出了使用基於梯度優化的原始影像與增廣影像密度匹配優化策略。

通過將數據增廣視作一種填充原始數據缺失點的方法,該演算法的目標是利用對抗學習來最小化增廣數據的和原始數據之間的分布距離。為了能夠學習最優的增廣策略,數據增廣流程需要對增廣參數可微。對於使用給定增廣方法的概率,作者們使用一個由伯努利分布取樣得到的隨機變數來表示,並使用 Gumbel trick 進行優化,增廣的強度通過直接估計來近似,增廣方法的組合則使用one-hot向量的組合來學習。

其他論文

半監督學習,無監督學習,遷移學習,表徵學習以及小樣本學習

Big Transfer (Bit): General Visual Representation (論文地址)

在本篇論文中, 作者們回顧了遷移學習的簡單範式:首先在一個大規模標記數據集(例如 JFT-300M 以及 ImageNet-21k)上進行預訓練,接著在目標任務上精調預訓練權重,從而減少目標任務的數據需求量以及優化時間。作者們提出的遷移學習框架稱為 BiT (Big Transfer),並且包含大量構建有效模型的必需組件,使其能夠藉助於大規模數據集學習到通用的、可遷移的特徵表達。

在預訓練(上游)階段,BiT 包含以下幾點:

  • 對於非常龐大的數據集,由於 Batch Normalization (BN) 含有訓練集的統計數據,使得測試階段存在訓練/測試不一致的問題,訓練損失雖然被正確回傳並優化,然而驗證損失則很不穩定。同時,BN 對批量大小很敏感。為了解決這個問題,BiT 轉而使用 Group Norm 以及  Weight Norm

  • 像 ResNet50 這樣的小模型並不會從大規模數據集上獲益,因此模型需要與數據集的大小匹配。

對於(下游)目標任務,BiT 提出以下幾點:

  • 使用 SGD 優化器,無需層凍結、dropout、L2正則化或任何梯度適應  。別忘了把最後的預測層的權重初始化為0。

  • 無需將所有輸入縮放為同一大小,如 224 。在訓練期間,輸入影像會隨機縮放並剪切為一個正方形,並隨機水平翻轉。在測試階段,影像則會放縮為同一固定大小。

  • 儘管對於數據量充足的大規模數據集預訓練來說,mixup 並沒有多大用處,但是 BiT 發現 mixup 正則化對下游任務里中等大小的數據集訓練非常有用。

Learning Visual Representations with Caption Annotations (論文地址)

在大規模標註數據集上訓練深度模型不僅能夠讓手頭的任務獲得優良表現,也能使得模型學到對於下游任務非常有用的特徵表達。然而,我們是否可以在不使用如此昂貴且細粒度的標註數據的情況下獲得類似的特徵表達能力呢?本篇論文研究了使用帶雜訊標註(在本篇論文中是影像的文字說明)進行弱監督預訓練。

目標是用有限對影像與說明文字來學習視覺表達,那麼如何制定訓練目標,來使得影像和它們的說明文字之間產生有效的聯繫呢?參考 BERT 模型隨機掩蓋 15% 的輸入字元,讓模型根據 transformer 模型的編碼器輸出重建整個句子,該方法也隨機對影像的文字說明進行掩碼操作。其提出的方法稱作 image-conditioned masked language modeling (ICMLM),其中影像資訊用於重建被掩碼的字元以及對應的說明文字。為了達到這個目的,作者們提出了兩個多模結構,(1) ICMLM tfm,使用一個卷積神經網路對原始影像進行編碼得到影像特徵,接著,經過BERT處理的被掩碼的影像說明、原始影像說明以及影像特徵被級聯起來並通過一個 transformer 編碼器,最終輸出一個多模嵌入特徵用於預估被掩碼的字元。(2) ICMLM att+fc,先計算影像說明與影像之間的相似度,接著經過一個成對注意力模組來整合影像與文字說明之間的資訊。得到的特徵會經過池化後再過一個全連接層來預測被掩碼的字元。

Memory-augmented Dense Predictive Coding for Video Representation Learning (論文地址)

近期在自監督影像表徵學習領域的進步在下游任務中展現出了令人印象深刻的效果。儘管影片的多模表徵學習多有發展,然而不使用其他任何類似於文本與語音的模態資訊,僅僅使用影片流進行自監督學習還未有所發展。儘管影片的時域資訊為自監督地訓練一個根據過去幀預測未來幀的模型提供了充足的監督訊號,這個任務仍舊頗具難度,因為真正的未來是不確定的,給定一個時間步長,未來的狀態是有多種可能的(舉個例子,當現在的動作是「打高爾夫」,那麼下一幀所在的位置可能是手,也有可能是高爾夫俱樂部)。

本文將對比學習與存儲模組結合使用,以解決未來幀的預測問題。為了減少不確定性,該模型會在特徵級別上預測未來,並使用對比損失進行訓練以避免過度約束。為了處理多種假設,一個存儲模組用於同時推斷多個未來狀態。給定一組連續幀,2d-3d CNN編碼器(即f)產生上下文特徵,而GRU(即g)整合所有過去的資訊,將其用於從共享存儲模組中選擇插槽。 接著,將所選存儲插槽的凸組合構成預測的未來狀態。然後,使用對比損失將預測的未來狀態與未來狀態的真實特徵向量進行比較。 對於下游任務,將g產生的特徵池化,然後送給分類器處理。

SCAN: Learning to Classify Images without Labels (論文地址)

要將未標記的輸入影像分組為語義上有意義的聚類,我們要做到僅使用視覺相似性來解決該問題。 先前的工作要麼是(1)使用自監督的方法學習豐富的特徵,然後對特徵應用 K-means 來聚類,但這很容易導致性能退化,或者就是(2)端到端的聚類方法,這些方法要麼利用 CNN 進行深度聚類,要麼基於互資訊最大化。但是,生成的聚類結果在很大程度上取決於初始化,並且很可能會被低級特徵主導。

為了解決先前工作中發現的問題,本文提出了包含兩大步驟的 SCAN(採用最近鄰方法的語義聚類)。第一步,通過前置任務學習特徵表示,然後生成初始聚類,SCAN 基於特徵相似度而不是應用 K-means 來挖掘每個影像的最近鄰。 
第二步,將語義上有意義的最近鄰用作先驗,以訓練模型將每個影像及其對應的鄰居分為一類。模型通過損失函數來優化,該函數會在 softmax 之後最大化輸出向量的點積,從而迫使網路產生一致且有判別度的(one-hot 向量)預測。

GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering (論文地址)

聚類是根據樣本相似度將數據進行集群劃分。傳統的方法使用手工特徵和特定領域的距離函數來度量相似度,但這種手工特徵的表現非常有限。隨後的工作將深度表示和聚類演算法結合起來,但是當輸入數據很複雜時,深度聚類的性能仍然會受到影響。一個有效的聚類,在特徵層面必須同時包含高層判別性特徵並獲取對象語義資訊。在聚類步驟上,必須避免使用將樣本分配到單個或少數幾個集群的演算法,並且聚類需要高效地應用於大尺寸影像。
本文提出了 GATCluster ,它不需要進一步的後處理就可以直接輸出語義聚類標籤,其中學習到的特徵是一個 one-hot 編碼向量,以避免弱解。在平移不變性、可分離性最大化、熵分析和注意力映射約束下,GATCluster採用四種自學習任務進行無監督訓練。

Associative Alignment for Few-shot Image Classification (論文地址)

小樣本影像分類的目標是在訓練樣本很少的情況下,生成一個能夠學習識別新的影像類的模型。一種流行的方法是元學習,它從包含基本類別的大量標記數據中提取公共知識,並用於訓練模型。在之後訓練該模型時僅用幾個樣本就可以從新的概念中對影像進行分類。元目標是找到一組好的初始權重集合,這些權重在訓練學習新的概念時迅速收斂。有趣的是,最近的研究表明,不使用元學習的標準遷移學習——特徵提取器首先在基本類別上進行預訓練,然後在新的幾個類別上對預訓練網路進行微調,其性能與更複雜的元學習策略不相上下。然而,在微調過程中,為了避免過擬合,特徵提取器對部分層的權重凍結會阻礙性能。

本文提出了一個含有兩個步驟的方法來解決這個問題。第一步,利用特徵提取器為新樣本生成特徵。然後在嵌入空間中使用相似性度量將每個樣本的特徵映射到其中一個基類。第二步是關聯對齊,其中特徵提取器被微調,使得新影像的嵌入向量更接近其對應的基礎影像的嵌入向量。這既可以通過中心對齊來完成的,其中每個基類的中心和新類別之間的距離減小,也可以使用對抗性對齊,其中鑒別器迫使特徵提取器在嵌入空間中對齊基礎影像和新樣本。

其他論文

三維電腦視覺以及機器人學

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (論文地址)

從2D影像合成3D視圖是一個具有挑戰性的問題,尤其是在稀疏地取樣了輸入2D影像的情況下。該任務先拍攝3D場景的2D影像集合(具有可選的相機姿勢及其內參),接著用這些數據訓練一個模型,然後使用訓練後的模型,我們就可以渲染3D場景中未拍攝過的新2D視圖。一種成功的方法是基於體素的表示法,該表示方法使用離散的網格表示3D場景。使用3D CNN可以預測3D體素中對應的RGB-alpha網格值。但是,由於這種基於體素的方法複雜度與空間解析度成三次比,難以優化並且無法平滑地對場景表面進行參數化,因此它們的存儲效率不高。電腦視覺社區的最新趨勢是使用全連接神經網路將給定的3D場景表示為連續函數。因此,神經網路本身就是3D場景的壓縮表示,使用2D影像集對其進行訓練,然後用於渲染新的視圖。但是,現有方法仍無法與基於體素的方法相匹敵。

NeRF(neural radiance fields)使用9層和256個通道的全連接網路將場景表示為連續的5D函數,其輸入是單個連續5D坐標,即3D空間位置(x,y,z)和視角方向(θ,ϕ),其輸出為RGB顏色和不透明度(輸出密度)。為了合成給定的視圖,渲染過程包括沿相機光心所在直線查詢5D坐標,並使用經典的體素渲染技術將輸出的顏色和密度投影到影像中。由於體素渲染是可以可微分的,因此優化表示所需的唯一輸入就是已知影機姿勢參數的一組影像。這樣,NeRF能夠有效地優化,以渲染具有複雜幾何形狀和外觀的場景的逼真視圖,並且在渲染影像和真實影像之間具有簡單的重建損失,論文證明其結果優於先前的神經渲染和視圖合成研究工作。

Towards Streaming Perception (論文地址)

諸如自動駕駛汽車之類的實際應用需要類似於人類的快速反應,通常為200毫秒。 在這種情況下,需要使用低延遲演算法來確保安全運行。 但是,即使經常研究電腦視覺演算法的延遲,也僅主要在離線環境中進行了研究。 在線視覺感知會帶來完全不同的延遲需求。 因為到了演算法完成處理特定影像幀的時間(例如200毫秒後),周圍的環境就已經發生了變化,如下圖所示。 這迫使感知需要預測未來,這是人類視覺的基本屬性(例如,當棒球運動員擊中快球時)。

為了開發更好的基準以反映現實情況,並使現有方法之間的比較更加容易。本文介紹了流感知的目標,即實時在線感知,並提出了一種新的元基準,該基準系統性地任何影像理解任務轉換為流影像理解任務。該基準基於以下要點提出:流感知需要在任何時刻都了解世界的狀態。因此,當新幀到達時,流演算法必須報告世界的狀態,即使它們尚未處理前一幀,也迫使它們考慮在進行計算時忽略的流數據量。具體來說,當比較模型的輸出和真實標籤時,使用時間而不是輸入索引來進行對齊,因此,在處理相應的輸入之前,模型需要在時間步t上給出正確的預測,即驗證模型是否正確地將取Δt作為輸入並處理,它只能使用t-Δt之前的數據來預測在時間t時刻對應於輸入的輸出。

Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images (論文地址)

人在很小的時候就能夠形成一個心理模型,基於與不同物品互動時的體驗,將對物體的感知與其對應的觸覺進行映射。當與新對象交互時,具有這種心理模型的自主智慧體會是一個非常有價值的工具,特別是當一個簡單的對象類別沒有足夠的資訊來準確估計其觸覺物理特性時。

為了更直接地模擬這樣一個心理模型,本文提出的模型會直接估計物體的物理屬性,使得物體的屬性數據可被直接利用。首先,作者構建了一個表面影像序列和觸覺特性測量數據集(數據集大小400+)。之所以對單個目標構建影像序列,是由於在估計表面特性時,人們常常無意識地移動頭部來獲取表面的多個視圖,因此捕捉到的影像序列包含每個材料表面多個視角得到的影像。然後,他們提出了一個跨模態的框架來學習視覺線索到觸覺特性的複雜映射。該模型的訓練目標是在給定視覺資訊的情況下,生成精確的觸覺特性估計值。視覺和觸覺資訊通過各自單獨的編碼器網路嵌入到共享的隱空間中。然後,生成器網路從嵌入視覺矢量中估計觸覺特性值。鑒別器網路學習預測觸覺-視覺對是真實的還是合成的。在推理過程中,使用編碼器-生成器對來推斷輸入影像的觸覺特性。

Convolutional Occupancy Networks (論文地址)

三維重建是電腦視覺的一個重要問題,有著廣泛的應用。對於理想的三維幾何圖形表示,我們需要能夠,a)編碼複雜的幾何和任意的拓撲,b)放縮到大型場景,c)封裝局部和全局資訊,以及d)在記憶體和計算方面易於處理。然而,現有的三維重建表示法並不能滿足所有這些要求。儘管最近的隱式神經表示在三維重建中表現出了令人印象深刻的性能,但由於使用簡單的全連接網路結構,不允許在觀測值中整合局部資訊或引入諸如平移等變項的歸納偏置,因此存在一定的局限性。

Convolutional Occupancy Networks 使用卷積編碼器和隱式佔用解碼器來合併歸納偏差並在三維空間中實現結構化推理。從而可以對單個對象進行更細粒度的隱式三維重建,能夠放縮到大型室內場景,並能很好地從合成數據推廣到真實數據。

其他論文

影像與影片合成

Transforming and Projecting Images into Class-conditional Generative Networks (論文地址)

GAN 能夠生成多種多樣不同類別的影像。例如,BigGAN,一個類條件生成對抗網路,給定一個雜訊向量 z 和一個類別嵌入向量 c ,該模型能夠生成對應類別的一張新影像。然後我們就可以通過編輯雜訊向量生成的隱變數以及類別嵌入向量操縱生成的影像。但這個過程可以反過來嗎?也就是說,給定一張輸入影像,我們能否找到與該影像最匹配的潛在變數 z 和類別嵌入向量 c 呢?這個問題仍然頗具挑戰性,因為許多輸入影像不能由 GAN 生成。另外,目標函數具有許多局部極小值,搜索演算法容易陷入此類區域。

為了解決這些問題,本文提出了 pix2latent 演算法,主要包含兩大創新點:估計輸入影像的尺度變換,以及使用非局部搜索演算法來尋找更好的解。如上圖所示,在給定輸入影像的情況下,pix2potent 首先找到最佳仿射變換,使得變換後的輸入更可能由 GAN 生成,然後使用提出的 BasicCMA 優化方法將影像投影到隱空間中。接著對獲得的隱變數進行編輯,並將其投影回影像空間,得到編輯後的影像,最後再用初始仿射變換的逆運算對其進行逆變換得到最終的生成影像。

Contrastive Learning for Unpaired Image-to-Image Translation (論文地址)

給定兩組不同屬性和模式的影像對訓練集,例如馬和斑馬的影像對,非配對影像到影像的轉換的目的是學習兩種影像模式之間的變換函數,例如將馬轉換為斑馬,反之亦然,這一過程中保留了諸如姿態或大小等敏感資訊而無需確保兩種影像模式之間的一一匹配。現有的方法如 CycleGAN 迫使模型能夠將轉換後的影像變換回原始影像。但是這樣的方法假設模型能夠學到一個雙射變換,這通常含有過多限制,因為一個給定的變換後的影像可能有多種樣式的源影像。理想的損失應該在不同樣式下保持不變,但要能夠做到區分敏感資訊。

Contrastive Unpaired Translation (CUT) 就是要學習這種嵌入空間。除了標準的 GAN 損失,其中生成器要訓練生成足夠真實的轉換影像,而鑒別器試圖區分轉換影像和真實影像。還要增加一個額外的損失,用來迫使網路對輸入影像與轉換影像的對應影像塊生成相似的嵌入向量。該損失在優化時採用對比損失,即拉近兩個對應影像塊嵌入向量的距離,同時拉遠給定影像塊和隨機抽樣影像塊嵌入之間的距離(只使用同一輸入影像的內部區塊,其他影像的區塊會降低性能)。

Rewriting a Deep Generative Model (論文地址)

GAN 能夠對數據分布中豐富的語義和物理規則進行建模,但是到目前為止,我們仍舊搞不明白這些規則是如何在網路中編碼的,也無從知曉如何改變某個規則。本篇論文則引入了一個新的問題:操縱由深度生成網路模型編碼的特定規則。也就是說,給定一個生成模型,其目的是調整其權重,使調整後的模型遵循新的規則,生成遵循新規則集的影像,如下圖所示。

通過將網路中的每一層視為一個關聯性存儲器(該存儲器將潛在生成規則存儲為隱藏特徵上的一組鍵值關係),我們就可以通過定義一個受到約束的優化來修改模型,這個受約束優化在關聯性存儲器中添加或編輯一個特定規則,同時儘可能保留模型中現有的語義關係。論文直接通過度量和操縱模型的內部結構來實現這一點,而不需要任何新的訓練數據。

Learning Stereo from Single Images (論文地址)

給定兩張對應的影像,視差匹配的目標是估計每個像素對應的位置從第一張影像的視角到第二個視角之間的每像素水平位移(即視差)。雖然全監督方法可以得到很好的結果,但是一對視察影像之間的精確真實視差往往很難獲得。一種可能的替代方法是使用合成數據進行訓練,然後使用有限數量的實際標記數據進行微調。但是如果沒有充足的真實數據來進行微調,這樣的模型在實際應用中還是無法得到很好的視差估計效果。

該文提出了一種新穎的、全自動的視差估計訓練流程,通過使用影像深度估計網路,該方法可以由已知深度資訊的非結構化單幅影像生成視差估計訓練數據,這樣就無需人工合成數據或真實視差影像對即可進行訓練。首先,利用深度視差,通過前向形變操作將給定的左輸入影像轉換為合成的右影像。然後,利用視差影像對,對視差估計網路進行有監督的訓練,從而得到一個泛化的模型。

What makes fake images detectable? Understanding properties that generalize (論文地址)

雖然 GAN 生成影像的品質已經達到了令人頗感驚異的水平,但是經過訓練的用於檢測假影像的深層網路仍然可以識別這些生成影像中的細微偽影,並且鑒別真假影像的網路還在不同數據集和不同方法訓練得到的許多 GAN 模型中找到了相同的偽影。本文旨在可視化和理解哪些部分在各類模型之間是共有的,並且容易在不同的場景中都呈現出來並被檢測出。

由於全局面部結構在不同的生成器和數據集之間可能會有所不同,因此相較而言,生成影像的局部面片更加確定且更可能產生冗餘的偽影。為此,使用一個基於區塊的全卷積分類器來關注局部區塊而不是全局結構。然後,可以使用分類器來可視化和分類在各種測試數據集中最能指示真實或虛假影像的區塊。另外,可以對生成的影像進行操作以誇大假影像的特徵屬性。

其他論文

視覺與語言(V&L)

Connecting Vision and Language with Localized Narratives (論文地址)

將視覺和語言聯繫起來的一種常用方法是使用影像標題,其中每個影像都與人類所寫的文本標題配對,但這種影像與文字的聯繫僅限於完整的影像尺度,其中的文本描述了整個影像。為了改進這種弱關聯,有人就將圖片標題的特定部分和影像中的目標框聯繫起來。但是,這種關聯仍然非常稀疏,大多數對象和單詞都沒有對應的目標框,而且標註過程可能會非常昂貴耗時。

本文提出了一種新的有效的多模態影像標註形式,稱之為定位敘事。定位敘述是通過要求標註者用他們的聲音描述一個影像,同時將滑鼠懸停在他們描述的影像區域上而生成的。例如,如上圖所示,標註者在說「woman」時,會用滑鼠表示其所在的空間範圍,從而為這個名詞提供了視覺基礎。接著,他們把滑鼠從女人身上移到氣球上,沿著氣球的繩子,說「holding」,這就為這種動詞關係提供了直接的視覺基礎。他們還描述了「clear blue sky」和「light blue jeans」等屬性。由於語音與滑鼠指針同步,因此可以確定描述中每個單詞對應的影像位置。這為每個單詞提供了以滑鼠跟蹤片段形式的密集視覺特徵。這一豐富的標註方法具有多種形式(影像、文本、語音和位置),可用於文本到影像生成、視覺問答和語音驅動的環境導航等不同的任務。或者為了對任務進行更精細的控制,比如對影像的特定部分進行說明,視力不好的人可以通過將手指懸停在影像上來獲得特定部分的描述。

UNITER: UNiversal Image-TExt Representation Learning (論文地址)

視覺與語言(V&L)任務,如視覺問答(VQA)都依賴於多模態聯合嵌入來彌合影像和文本中視覺線索與文本線索之間的語義鴻溝。但是這種表示通常是為特定的任務訂製的,並且需要特定的網路體系架構。為了學習可用於所有 V&L 下游任務的通用聯合嵌入,本文介紹了一種大規模聯合多模態嵌入預訓練模型 UNITER ,如下圖所示。基於 transformer 模型,UNITER 接受了4個任務的預訓練:基於影像的蒙版語言建模(MLM),即使用影像和文本特徵來恢復隨機蒙版的單詞;以文本為條件的蒙版區域建模(MRM),即重構給定影像的某些區域;影像文本匹配(ITM),即預測影像和文本實例是否配對;以及單詞區域對齊(WRA),即學習最佳變換找到單詞和影像之間的最佳對齊。要在下游任務上使用 UNITER ,首先要將其重新構造為分類任務,然後可以在網路輸出的[CLS]特徵後添加分類器並使用交叉熵損失進行訓練。

Learning to Learn Words from Visual Scenes (論文地址)

視覺和語言任務(V&L)的標準方法是學習一個共同的嵌入空間,但這種方法效率低下,往往需要上百萬個例子來學習,對語言的自然構成結構泛化較差,所學嵌入在推理時無法適應新單詞。因此,本文提出讓網路學習得到單詞嵌入的過程,而非學習單詞嵌入。

該模型基於 transformer 結構,在每一次迭代中,模型接收一個影像語言對,然後元學習一個策略來從中獲取詞表示。這就使得我們能夠在推理時獲得新單詞的表示,並且能夠更魯棒地推廣到新的描述任務中。具體來說,每一個任務都被定義為一個語言習得任務,其中包含訓練樣本和測試樣本,可通過測試樣本來對由訓練樣本中習得的語言進行評估。例如,在上圖中,模型需要從訓練樣本中獲取單詞「chair」,這個單詞以前從未見過。元訓練在前向傳遞中完成,並使得模型指向訓練示例中正確的單詞「chair」,整個模型的訓練使用匹配損失來完成。經過多種場景與任務的訓練,該模型在推理過程中能夠很快地適應新的任務。

其他論文

結語

遺憾的是,論文的數量使得整個摘要工作既困難又費時。所以對於其餘的論文,我將簡單地列出一些我所遇到的論文標題,如果讀者對這些主題感興趣可自行深入研究。


AI研習社是AI學術青年和AI開發者技術交流的在線社區。我們與高校、學術機構和產業界合作,通過提供學習、實戰和求職服務,為AI學術青年和開發者的交流互助和職業發展打造一站式平台,致力成為中國最大的科技創新人才聚集地。

如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

18:22:2018:22:23