29篇電腦視覺領域論文，篇篇驚艷！內附鏈接！

2020 年 2 月 20 日
筆記

作者 | 微軟亞洲研究院

本文經授權轉載自微軟研究院AI頭條（ID：MSRAsia）

1. Deep High-Resolution Representation Learning for Human Pose Estimation

論文鏈接：https://arxiv.org/pdf/1902.09212.pdf

該論文在提出了一個新的網路High-Resolution Network (HRNet)，可以學到空間精度高語義強的高解析度表。該網路設計的不同於其他主流網路的有兩大關鍵點：一直保持高解析度表徵；並聯不同解析度的卷積分支。在人體骨架點檢測以及目標檢測、影像語義分割、人臉關鍵點檢測等視覺問題上取得了領先的結果，被同行廣泛接受和使用。該論文發表在CVPR 2019。

開源地址：https://github.com/HRNet

https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

2. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

論文鏈接：https://arxiv.org/pdf/1908.08530.pdf

該文發表於ICLR 2020，是最早提出影像和文本聯合預訓練模型的論文之一。研究員提出了一種新的通用的多模態預訓練模型VL-BERT，該模型採用簡單而強大的Transformer模型作為主幹網路，並將其輸入擴展為同時包含視覺與語言輸入的多模態形式，適用於絕大多數視覺語義下游任務。為了讓VL-BERT模型利用更為通用的特徵表示，研究員在大規模圖片描述生成數據集Conceptual Captions中進行VL-BERT的預訓練，實驗證明此預訓練過程可以顯著提高下游的視覺語義任務的效果，包含視覺常識推理、視覺問答與引用表達式理解等。

3. A Relation Network Based Approach to Curved Text Detection

論文鏈接：https://icdar2019.org/list-of-accepted-papers/

該論文創新地提出了一套基於關係網路（Relation Network）的新型文字檢測框架，有效提升了通用文本行檢測的準確率。該論文發表在ICDAR 2019會上。

4. An Anchor-free Region Proposal Network for Faster R-CNN-based Text Detection Approaches

論文鏈接：https://www.springerprofessional.de/en/an-anchor-free-region-proposal-network-for-faster-r-cnn-based-te/17013452

該論文提出了一種稱為anchor-free RPN的物體檢測演算法來解決經典RPN演算法無法有效預測任意方向文本框的問題。該演算法不僅在單詞級別的文字檢測任務上取得很好的結果，而且類似思想在當前物體檢測領域也成為主流。該論文發表在IJDAR期刊上。

5. Scalable Training of Deep Learning Machines by Incremental Block Training with Intra-Block Parallel Optimization and Blockwise Model-Update Filtering

論文鏈接：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/08/0005880.pdf

該論文提出了一種通用分散式優化演算法，在增量式學習框架內引入逐塊模型更新濾波(BMUF)演算法，在線性加速深度學習模型訓練的同時，保持模型的準確率。該論文發表在ICASSP 2016會上。

6. Compressing CNN-DBLSTM Models for OCR with Teacher-Student Learning and Tucker Decomposition

論文鏈接：https://www.sciencedirect.com/science/article/abs/pii/S0031320319302547

該論文提出了一種針對CNN-DBLSTM模型中運算代價最大的CNN部分進行壓縮加速的方法，即首先在LSTM部分的指導下，對CNN部分進行知識蒸餾，然後利用Tucker分解演算法，對CNN進行進一步壓縮和加速，由此得到的模型運行時相比原始模型加速14倍，解決了部署難題。該論文發表在Pattern Recognition期刊上。

7. An Open Vocabulary OCR System with Hybrid Word-Subword Language Models

論文鏈接：https://ieeexplore.ieee.org/abstract/document/8270022

該論文提出了一種以詞與子詞為基本語言單元的混合語言模型，來解決光學字元識別（OCR）中的集外詞（Out of Vocabulary, OOV）問題。該論文發表在ICDAR 2017 會上。

8. Relation Networks for Object Detection

論文鏈接：https://arxiv.org/pdf/1711.11575.pdf

在CVPR 2018上，該論文提出了一種即插即用的物體關係模組，第一次實現了完全端到端的物體檢測器，該方法也是自注意力模型在視覺領域最早的應用之一。

9. Learning Region Features for Object Detection

論文鏈接：https://arxiv.org/pdf/1803.07066.pdf

在ECCV 2018上，該論文給出了區域特徵提取的通用表達式，並提出了一個完全可學習的區域特徵提取方法。

10. Local Relation Networks for Image Recognition

論文鏈接：https://arxiv.org/pdf/1904.11491.pdf

在ICCV 2019上，該論文提出了一種新的完全無需卷積的神經網路，在ImageNet影像分類基準數據集上取得了超越卷積神經網路的準確率。

11. GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond

論文鏈接：https://arxiv.org/pdf/1904.11492.pdf

在ICCVW 2019上，該論文改變了學界對於流行的非局部網路工作機制的認識，並提出了一個新的高效的全局關係網路。

12. An Empirical Study of Spatial Attention Mechanisms in Deep Networks

論文鏈接：https://arxiv.org/pdf/1904.05873.pdf

在ICCV 2019上，研究員提出了一種關於空間注意力機制的通用表達形式，並分析了這一通用表達形式中不同的表達項在各種視覺任務上的表現，為今後空間注意力機制的應用提供參考。

13. Deep Metric Transfer for Label Propagation with Limited Annotated Data

論文鏈接：https://arxiv.org/pdf/1812.08781.pdf

該論文提出了一種新的半監督學習/遷移學習/小樣本學習範式，該範式的核心是利用無監督預訓練方法來獲得初始影像特徵，其在半監督學習上取得近20%（絕對值）的準確率提升，文章發表在ICCVW 2019上。

14. Deformable ConvNets v2: More Deformable, Better Results

論文鏈接：https://arxiv.org/pdf/1811.11168.pdf

在CVPR 2019上，該論文提出了更強的可變形卷積網路，相比標準卷積其能廣泛且顯著提升各種視覺感知任務的準確率，包括影像分類，物體檢測，語義分割，物體跟蹤等等，例如在COCO物體檢測基準測試中，相比相同條件下的標準卷積網路能取得近7個點的提升。

15. RepPoints: Point Set Representation for Object Detection

論文鏈接：https://arxiv.org/pdf/1904.11490.pdf

邊界框是視覺物體表示的標準方法，在ICCV 2019上，該論文提出了一種基於點集來替代邊界框的物體表示新方法，這一新方法具有更強的表示能力和可解釋性。基於這一新的表示，得到了當時最好的無錨點檢測器。這一表示方法最近還被推廣到實例分割和人體姿態估計中。

16. A Twofold Siamese Network for Real-Time Object Tracking

論文鏈接：https://arxiv.org/abs/1802.08817

該文章發表在CVPR 2018上，提出了雙路孿生網路進行視覺物體跟蹤的方案，簡稱為SA-Siam，其中S代表的是語義（Semantic）分支，而A則代表外觀（Appearance）分支。兩個分支既獨立又互補，取得了極佳的跟蹤效果。

17. SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking

論文鏈接：https://arxiv.org/abs/1904.04452

在CVPR 2019上，該文章提出了雙階段匹配和創新的串並聯結構實現物體的魯棒、精準跟蹤。SPM跟蹤器在粗匹配階段側重語義理解，在細匹配階段側重外觀表達，並通過不同訓練方式獲得了理想的平衡。

18. Unsupervised High-Resolution Depth Learning from Videos With Dual Networks

論文鏈接：https://arxiv.org/abs/1910.08897

文章發表在ICCV 2019上，提出了基於雙網路結構的深度估計學習架構，使用較深的網路提取低解析度輸入影像中的全局特徵資訊，使用較淺的網路提取高分辨輸入影像中的細節特徵資訊，再將二者結合用來估計高解析度的深度。與以往方法相比，該方法以更低的計算量獲取了更好的深度估計效果，特別是對於影像的精細區域和遠距離區域等對解析度敏感區域的深度估計結果提升顯著。

19. Moving Indoor: Unsupervised Video Depth Learning in Challenging Environments

論文鏈接：https://arxiv.org/abs/1910.08898

在ICCV 2019上，該文章提出了更為魯棒的光流重建監督訊號，以解決難度更大的室內場景下的無監督深度估計。與傳統的影像重建訊號相比，針對紋理缺失嚴重的室內場景，利用稀疏到稠密的光流估計方法獲取穩定的光流估計，並將光流資訊輸入相機估計網路克服相機運動複雜的難題，從而實現了深度布局更為複雜多樣的室內場景下的穩定的深度估計。

20. Cross View Fusion for 3D Human Pose Estimation

論文鏈接：https://arxiv.org/abs/1909.01203

文章發表在ICCV 2019上，提出了首個跨攝影機的特徵融合網路，通過將「容易」視角的特徵融合到「困難」視角，有效地解決了遮擋問題。在Benchmark數據集上顯著降低了三維姿態的估計誤差。

21. Optimizing Network Structure for 3D Human Pose Estimation

論文鏈接：https://www.chunyuwang.org/img/ICCV_2019_CiHai.pdf

在ICCV 2019上，該文章提出了基於人體模型的網路Locally Connected Network，該網路參數量少，能夠有效緩解Over-fitting。

22. Online Dictionary Learning for Approximate Archetypal Analysis

論文鏈接：https://www.microsoft.com/en-us/research/publication/online-dictionary-learning-for-approximate-archetypal-analysis/

該文章發表在ECCV 2018上，提出了人體姿態的低維表達方法，通過投影的方式保證姿態估計的正確性。

23. Part-Aligned Bilinear Representations for Person Re-identification

論文鏈接：http://arxiv.org/pdf/1804.07094.pdf

該文在作者前面的工作弱監督 Deeply-Learned Part-Aligned Representations（https://arxiv.org/pdf/1707.07256.pdf）基礎上，引進了人體姿態來幫助人體部件對齊，提升了行人重識別性能。該文發表在ECCV 2018。

24. Semantics-Aligned Representation Learning for Person Re-identification

論文鏈接：https://arxiv.org/abs/1905.13143

本文即將發表在AAAI 2020上，提出了基於語義對齊的特徵學習網路進行行人重識別。我們通過引入對人體空間語義對齊的全視圖的重建任務，實現了賦予網路由單（視角）張影像預測全視角人體外觀的能力，解決了行人重識別中影像間空間語義不對齊的難題。

25. Uncertainty-aware Multi-shot Knowledge Distillation for Image-based Object Re-identification

論文鏈接：https://www.msra.cn/wp-content/uploads/2020/01/Uncertainty-aware-Multi-shot-Knowledge-Distillation-for-Image-based-Object-Re-identification.pdf

將發表在AAAI 2020上，通過對同一目標的不同圖片的資訊的聯合學習，獲取更全面的對該目標的特徵表達，並利用Teacher-Student網路來針對性地將學到的更全面的資訊傳遞給學生網路(單張影像為輸入)，實現了測試階段僅需要單張圖片作為輸入，但更全面和高判別力的特徵提取。

26. Mask-Guided Portrait Editing with Conditional GANs

論文鏈接：https://arxiv.org/abs/1905.10346

文章發表於CVPR 2019，本模型解決了人臉合成中的三個問題：多樣性，高品質和可控性。在本文中，研究員們提出了一個基於cGAN的框架，可以分別對眼睛、鼻子、嘴、皮膚和頭髮進行編輯。我們的模型有許多應用，例如人臉編輯，改變髮型，放大眼睛，或者使其微笑。此外，研究員們可以局部修改現有人臉的外觀。

27. Learning Pyramid Context Encoder Network for High-Quality Image Inpainting

論文鏈接：http://openaccess.thecvf.com/content_CVPR_2019/papers/Zeng_Learning_Pyramid-Context_Encoder_Network_for_High-Quality_Image_Inpainting_CVPR_2019_paper.pdf

論文發表CVPR 2019，基於「由深到淺，多次補全」的構想，提出了一種金字塔式注意力機制的上下文編碼網路，可以生成語義合理且紋理細節豐富的影像內容。

28. Learning 2D Temporal Adjacent Network for Moment Localization with Natural Language

論文鏈接：https://arxiv.org/pdf/1912.03590.pdf

論文發表在AAAI 2020，提出了時序資訊處理問題中一種全新的建模思路——二維時間圖，在基於自然語言描述的影片內容定位和影片內人體動作檢測兩個任務上驗證了其有效性。

29. Structured Knowledge Distillation for Semantic Segmentation

論文鏈接：https://arxiv.org/abs/1903.04197v1

文章發表在CVPR 2019。該文提出了結構化的知識蒸餾方法，來蒸餾影像分割中的全局結構化資訊以提升輕便網路的性能。

開源地址：https://github.com/irfanICMLL/structure_knowledge_distillation

（*本文由於AI科技大本營轉載，轉載請聯繫原作者）

29篇電腦視覺領域論文，篇篇驚艷！內附鏈接！

VirMach 便宜 VPS

QNews

29篇電腦視覺領域論文，篇篇驚艷！內附鏈接！

分享此文：

Related Posts

Mybatis源碼詳解系列(三)–從Mapper介面開始看Mybatis的執行邏輯

【運維】Vmware虛擬機靜態IP的設置

華為新品發布會前瞻：Mate Xs即將登場 全面升級

​刷B站的年輕人，到底在刷什麼？| DT數說

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋

華為新品發布會前瞻：Mate Xs即將登場全面升級

刷B站的年輕人，到底在刷什麼？| DT數說