解讀 | 2019 年 10 篇電腦視覺精選論文(上)

  • 2019 年 12 月 23 日
  • 筆記

By 超神經

內容一覽:2019 年轉眼已經接近尾聲,我們看到,這一年電腦視覺(CV)領域又誕生了大量出色的論文,提出了許多新穎的架構和方法,進一步提高了視覺系統的感知和生成能力。因此,我們精選了 2019 年十大 CV 研究論文,幫你了解該領域的最新趨勢。

關鍵詞:電腦視覺 精選論文

我們看到,近年來,電腦視覺(CV)系統已經逐漸成功地應用在醫療保健,安防,運輸,零售,銀行,農業等領域,也正在逐漸改變整個行業的面貌。

而今年,CV 領域依然碩果累累,誕生了多篇優秀論文。我們選擇了其中十篇論文,以供大家參考、學習,了解該領域的最新趨勢與前沿技術。

這十篇論文涵蓋了卷積網路的優化,電腦視覺中的無監督學習,影像生成和機器生成影像的評估,視覺語言導航,使用自然語言為兩個影像標註變化等。

以下是我們精選的 10 篇論文目錄,先一睹為快:

1.EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

EfficientNet:卷積神經網路模型縮放的反思

2.Learning the Depths of Moving People by Watching Frozen People

通過觀看靜止的人來學習移動的人的深度

3.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

增強的跨模態匹配和自我監督的模仿學習,用於視覺語言導航

4.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

非視線形狀重構的費馬路徑理論

5.Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection

Reasoning-RCNN:將自適應全局推理統一到大規模目標檢測中

6.Fixing the Train-Test Resolution Discrepancy

修復訓練測試解析度差異

7.SinGAN: Learning a Generative Model from a Single Natural Image

SinGAN:從單個自然影像中學習生成模型

8.Local Aggregation for Unsupervised Learning of Visual Embeddings

視覺聚合的無監督學習的局部聚合

9.Robust Change Captioning

強大的更改字幕

10.HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

HYPE:人類對生成模型的 eYe 感知評估的基準

接下來,我們將從核心思想關鍵成就未來技術應用等方面,詳細介紹這 10 篇論文。限於篇幅,我們將解讀分為上、中、下三個篇章,歡迎大家持續關注後續內容推送。

1

《EfficientNet:卷積神經網路模型縮放的反思》

論文地址:https://arxiv.org/pdf/1905.11946.pdf

摘要

卷積神經網路(ConvNets)通常是在固定資源預算下開發的,如果有更多資源可用,則會進行擴展以獲得更高的精度。在本文中,我們系統地研究了模型縮放,並發現仔細平衡網路的深度,寬度和解析度,可以帶來更好的性能。基於此觀察結果,我們提出了一種新的縮放方法,該方法使用簡單而高效的複合係數來均勻縮放深度/寬度/解析度的所有維度。我們證明了此方法在擴展 MobileNets 和 ResNet 方面的有效性。

更進一步,我們使用神經體系結構搜索來設計一個新的基準網路,並對其進行擴展以獲得稱為 EfficientNets 的模型系列,該模型系列比以前的 ConvNets 具有更高的準確性和效率。特別是,我們的 EfficientNet-B7 在 ImageNet 上達到了最先進的 84.4%top-1 / 97.1%top-5 精度,同時比現有最佳 ConvNet 縮小了 8.4 倍,推理速度提高了 6.1 倍。我們的 EfficientNets 還可以很好地傳輸並在 CIFAR-100(91.7%),Flowers(98.8%)和其他 3 個傳輸學習數據集上達到最先進的精度,而參數要少幾個數量級。源程式碼鏈接:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet.。

本文核心思想

•CNN 的深度(層數),寬度和輸入解析度應以特定的比例放大,而不是任意放大。

•此外,由於模型縮放的有效性在很大程度上取決於基準線網路,因此研究人員利用神經體系結構搜索來開發新的基準線模型,並將其按比例縮放以獲得一個稱為 EfficientNets 的模型系列。

•您可以根據可用資源,選擇 EfficientNets 中的一種模型。

關鍵成就

•EfficientNets 在 8 個數據集中的 5 個上,獲得了最優的精度,平均參數減少了 9.6 倍。

•特別是,具有 66M 參數的 EfficientNet 在 ImageNet 上達到了 top-1 準確率 84.4%,top-5 準確率 97-1%,比之前最先進的 CNN – GPipe(參數557M )小了 8 倍,快了 6 倍

此論文在人工智慧界的榮譽

•該論文在機器學習領域的頂尖會議 ICML 2019 上被重點介紹

未來的研究領域

作者在 Google AI 部落格上表示,他們希望 EfficientNets「充當未來電腦視覺任務的新基礎」。

有哪些可能的業務應用程式?

這項研究的結果對於商業環境中的電腦視覺應用非常重要,因為提出的方法可以更快,更便宜地從 CNN 獲得更準確的結果。

在哪裡可以獲得實現程式碼?

•作者已發布了其 TensorFlow EfficientNet 實現的源程式碼:

https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet 。

•還可用 PyTorch 實現:

https://github.com/lukemelas/EfficientNet-PyTorch

2

通過觀看靜止的人來學習移動的人的深度

論文地址:https://arxiv.org/pdf/1904.11111.pdf

摘要

我們提出了一種在單目攝像機和人都可以自由移動的情況下,預測密集深度的方法。現有的用於從單目影片恢復動態非剛性物體的深度的方法,對物體的運動施加了強烈假設,並且可能僅恢復稀疏的深度。在本文中,我們採用數據驅動的方法,從新的數據來源中學習人物深度先驗:成千上萬的人們模仿人體模型的互聯網影片,即以各種自然姿勢凍結,而手持攝像機則在現場瀏覽。因為人是靜止的,所以可以使用多視圖立體重建來生成訓練數據。在推理時,我們的方法使用來自場景的靜態區域的運動視差線索來指導深度預測。我們通過移動手持攝像機捕獲的複雜人物動作的真實世界序列展示了我們的方法,顯示了對前沿的單目深度預測方法的改進,並顯示了使用我們預測的深度產生的各種 3D 效果。

本文的核心思想

•這項研究解決了在一個有人類主體的自然場景中,當主體和單個攝像機同時移動時,映射深度的挑戰。

•作者使用 YouTube 上模仿人體模型的人的影片資料庫 Mannequin Challenge(人體模型挑戰數據集)訓練了一個深度神經網路,該深度可以通過現有的立體聲技術進行映射。

•該網路以 RGB 影像、人類區域掩碼和環境初始深度作為輸入,然後輸出包括環境和人類在內的整個影像的稠密深度圖。

•假設人類在移動而場景的其餘部分是靜止的,則通過影片中兩個幀之間的運動視差來估計初始深度。

關鍵成就

•提出的模型與現有方法相比,能夠為人類及其周圍環境以明顯更高的精度,重新創建移動場景的深度圖。

•引入了 Mannequin Challenge 數據集,這是 2,000 個 YouTube 影片的集合,在這些影片中,當攝像機繞著場景轉圈時,人們在其中姿勢不動。

此論文在人工智慧界的榮譽

•該論文在電腦視覺和模式識別的領先會議 CVPR 2019 上獲得了最佳論文獎(榮譽獎)。

未來的研究領域是什麼?

•擴展模型以適用於移動非人類物體,例如汽車和陰影。

•一次將兩個以上的視圖合併到模型中,以消除暫時的不一致。

有哪些可能的業務應用程式?

•產生精確的 3D 影片效果,包括合成景深,可感知深度的修補以及將虛擬對象插入 3D 場景。

•使用多個框架擴展視野,同時保持準確的場景深度。

在哪裡可以獲得實現程式碼?

•程式碼和模型在 GitHub 上地址為:

https://github.com/google/mannequinchallenge。

3

用於視覺語言導航的,增強跨模態匹配和自我監督模仿學習

論文地址:https://arxiv.org/pdf/1811.10092.pdf

摘要

視覺-語言導航(Vision-language navigation,VLN)任務是指在真實的三維環境中讓具有實體的智慧體進行導航並完成自然語言指令。在這篇論文中,我們研究了如何解決這個任務中的三個重點挑戰:跨模態參照不適定回饋,以及泛化問題。我們首先提出了一種新的強化跨模態匹配(RCM)方法,它可以通過強化學習的方式同時促進局部和全局的跨模態參照。具體來說,我們使用了一個匹配指標,它成為了鼓勵模型增強外部指令和運動軌跡之間匹配的固有回饋;模型也使用了一個推理導航器,它用來在局部視覺場景中執行跨模態參照。在一個 VLN benchmark 數據集上進行的評估結果表明,我們提出的 RCM 模型大幅超越已有模型,SPL 分數提高了 10%,成為了新的 SOTA。為了提高學習到的策略的泛化性,我們還進一步提出了一個自監督模仿學習(SIL)方法,通過模仿自己以往的良好決策的方式探索未曾見過的環境。我們證明了 SIL 可以逼近出更好、更高效的策略,這極大程度減小了智慧體在見過和未見過的環境中的成功率表現的差別(從 30.7% 降低到 11.7%)。

本文的核心思想

• 視覺語言導航需要一台機器來解析語言指令,將這些指令與視覺環境匹配,然後根據語言指令中的子短語來導航該環境。

• 為了解決這一艱巨的任務,研究人員介紹了一種新穎的跨模態匹配方法,該方法利用外部獎勵和內在獎勵來進行強化學習:

  • 它包括一個推理導航器,該導航器從自然語言指令和本地視覺場景中學習,以推斷出要重點關注的短語以及查找的位置。
  • 該 agent 配備有一個匹配的注釋程式,該注釋程式根據從中重構原始指令的可能性來評估執行路徑。
  • 另外,細粒度的內在獎勵訊號會鼓勵代理更好地理解文本輸入,並對選擇不符合指令的軌跡進行懲罰。

• 本文還介紹了一種自我監督的模仿學習(SIL)方法,用於探索以前看不見的環境:

  • 導航器執行多次滾動,然後由匹配的注釋器確定良好的軌跡,隨後將其用於導航器模仿。

關鍵成就

•RCM 框架在以下方面優於 R2R 數據集上的最新視覺語言導航方法:

將 SPL 分數從 28% 提高到 35%;成功率提高了 8.1%。

•此外,使用 SIL 模仿 RCM agent 先前在訓練集上的最佳體驗,會導致平均路徑長度從 15.22m 下降到 11.97m,並且對 SPL 度量的結果甚至更好(38%)。

此論文在人工智慧界的榮譽

•該論文獲得了三項「強烈接受」(Strong Accept)同行評審,並在電腦視覺和模式識別的頂尖會議 СVPR 2019 上被重點介紹

未來的研究領域是什麼?

•使用 SIL 方法探索其他看不見的環境。

有哪些可能的業務應用程式?

•引入的框架可以在許多實際應用中使用,包括:

按照指示在家庭或辦公室中移動的家用機器人;

私人助理接受口頭指示並在複雜的環境中導航以執行某些任務。