本周 Paper推薦丨CVPR2020最佳論文,最佳學生論文,清華大學自監督學習綜述等

.

  推薦目錄

CVPR 2020最佳論文:無需任何監督,即可重建三維圖像

CVPR 2020最佳學生論文】BSP-Net:通過二叉空間分割生成緊湊網絡

【清華唐傑團隊】自監督學習:生成型or對比型

【SIGGRAPH 2020 】從視頻到動畫的無配對動作風格遷移

深度多模態數據分析綜述:協作、競爭和融合

   CVPR2020最佳論文:無需任何監督,即可重建三維圖像

論文名稱:Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

作者: Wu Shangzhe /Rupprecht Christian /Vedaldi Andrea

發表時間:2019/11/25

論文鏈接://arxiv.org/abs/1911.11130

代碼地址://github.com/elliottwu/unsup3d

項目地址://elliottwu.com/projects/unsup3d/

Demo 地址://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html

推薦原因

作者提出一種無需外部監督即可從原始單視圖圖像中學習3D變形對象類別的方法。基於原始單目圖像學習3D可變形物體類別,而且無需外部監督。其使用的方法是基於一個自動編碼器,這個編碼器能夠將每張輸入圖像分解為深度、反射率、視點和光照四個組件。

為了在不進行監督的情況下解開這些組件,作者使用了以下事實:許多對象類別至少在原則上具有對稱結構。作者證明了關於照明的推理使我們能夠利用基本的對象對稱性,即使由於陰影而導致外觀不對稱。

在訓練過程中,作者使用Adam優化器對batch為64的輸入圖像進行訓練,圖像大小resize為64×64像素。輸出深度和反射率的大小也是64×64。訓練大約進行5萬次迭代,對於可視化,深度圖將上採樣到256。

實驗表明,該方法可以從單視圖圖像中非常準確地恢復人臉,貓臉和汽車的3D形狀,而無需任何監督或預先的形狀模型。在基準測試中,與另一種在2D圖像對應級別上使用監督的方法相比,作者證明了更高的準確性。

  【CVPR 2020最佳學生論文】BSP-Net:通過二叉空間分割生成緊湊網絡

論文名稱:BSP-Net: Generating Compact Meshes via Binary Space Partitioning

作者: Chen Zhiqin /Tagliasacchi Andrea /Zhang Hao

發表時間:2019/11/16

論文鏈接://arxiv.org/abs/1911.06971

推薦原因

這篇論文從多邊形網格入手,多邊形網格在數字 3D 領域中無處不在,但它們在深度學習革命中僅扮演了次要角色。學習形狀生成模型的領先方法依賴於隱函數,並且只能在經過昂貴的等值曲面處理過程後才能生成網格。為了克服這些挑戰,該研究受計算機圖形學中經典空間數據結構 Binary Space Partitioning(BSP)的啟發,來促進 3D 學習。

BSP 的核心部分是對空間進行遞歸細分以獲得凸集。利用這一屬性,研究者設計了 BSP-Net,該網絡可以通過凸分解來學習表示 3D 形狀。重要的是,BSPNet 以無監督方式學得,因為訓練過程中不需要凸形分解。

該網絡的訓練目的是,為使用基於一組平面構建的 BSPtree 獲得的一組凸面重構形狀。經過 BSPNet 推斷的凸面可被輕鬆提取以形成多邊形網格,而無需進行等值曲面處理。生成的網格是緊湊的(即低多邊形),非常適合表示尖銳的幾何形狀。此外,它們一定是水密網格,並且可以輕鬆參數化。該研究還表明,BSP-Net 的重構質量和 SOTA 方法相比具備競爭力,且它使用的原語要少得多。

  【清華唐傑團隊】自監督學習:生成型or對比型

論文名稱:Self-supervised Learning: Generative or Contrastive

作者: Liu Xiao /Zhang Fanjin /Hou Zhenyu /Wang Zhaoyu /Mian Li /Zhang Jing /Tang Jie

發表時間:2020/6/15

論文鏈接://arxiv.org/abs/2006.08218

推薦原因

近日,清華大學教授唐傑發表了一篇《Self-supervised Learning: Generative or Contrastive》的綜述文章,文章收錄了160+篇文章,包括NLP、CV、Graph等領域的算法。文章中,研究者討論了新的自監督學習方法在計算機視覺、自然語言處理和圖形學習中的表徵。

收集了近年來對自然語言處理,計算機視覺和圖形學習的研究,以對自監督學習的前沿領域進行最新、全面的回顧。

綜上所述,他們的貢獻如下: 

  • 提供自監督學習最新、最詳細的概述,介紹背景知識、變量模型和重要的框架,可以比較簡單的掌握自我監督學習的前沿思想。

  •  將自我監督的學習模型分為生成型,對比型和生成對比型(對抗性),每種都包含特定的類型。展示了每種分類的利弊,並討論最近從生成轉向對比的轉變。

  • 研究了自我監督學習方法的理論合理性,並說明它如何有益於下游監督學習任務。

  •  確定該領域中的幾個未解決的問題,分析其局限性和邊界,並討論自監督表示學習的未來方向。

   SIGGRAPH 2020 | 從視頻到動畫的無配對動作風格遷移

論文名稱:Unpaired Motion Style Transfer from Video to Animation

作者:Aberman Kfir /Weng Yijia /Lischinski Dani /Cohen-Or Daniel /Chen Baoquan

發表時間:2020/5/12

論文鏈接://arxiv.org/abs/2005.05751

推薦原因

通過觀察一個人走路時的動作細節,往往能推測出走路者的情緒、年齡乃至性格。在製作角色動畫時,也希望生成具有多樣風格的動作,從而增強真實感與表現力。傳統的動作捕捉技術成本高昂,基於已有動作進行風格遷移——從動作片段 S 中提取風格信息,應用到動作片段 C 的內容上——是更加經濟可行的做法。

已有的動作風格遷移方法大多依賴於成對訓練數據,即內容(如腳步、運動軌跡)完全相同,僅風格不同的動作;此外,它們往往不能遷移訓練中從未出現的風格。為了突破這些限制,作者提出了一種新的動作風格遷移框架,直接從無配對、僅含風格標籤的訓練數據中學習,能在測試階段遷移從未見過的新風格。進一步地,它能繞過三維重建,直接從二維視頻中提取風格,遷移到三維動作上,大大拓展了動作風格遷移的應用範圍。

作者提出的方法能夠基於內容、風格動作片段給出高質量的遷移結果。輸入片段無需具有相似的動作內容。對於視頻輸入,作者使用 OpenPose 提取骨架信息,將得到的二維動作作為網絡的風格動作輸入。

   深度多模態數據分析綜述:協作、競爭和融合

論文名稱:Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and Fusion

作者:Wang Yang

發表時間:2020/6/15

論文鏈接://arxiv.org/abs/2006.08159

推薦原因

這是一篇綜述論文,已經被ACM Transactions on Multimedia Computing Communications and Applications接收。這篇論文關注的是利用深度學習進行多模態數據分析的工作。

隨着大數據的發展,多模態或多視圖數據漸漸成為主流。由於不同的模態可以提供研究對象的不同屬性,起到相輔相成的效果,因此在一系列的研究工作中,多模態信息的融合能夠取得比單模態更好的性能表現。在處理多模態數據的過程中,深度神經網絡可以很好地捕捉高維多媒體數據的非線性分佈,從本質上深化了多模態深度特徵空間的融合,已經成為了分析多模態數據的主流方法。

這篇論文提供了從淺到深空間的多模態數據分析領域的現有工作的概述,並指出這個領域未來研究的關鍵要素是多模式空間的協作、對抗性競爭和融合。

這篇論文可以幫助讀者了解多模態數據分析的工作進展,並了解未來可行的研究方向。

如何參與到更多論文討論學習中?

AI研習社論文討論微信群,分別有【NLP論文討論群】【CV論文討論群】【強化學習討論群】,未來將會更細分方向和內容,群裏面可以分享你覺得不錯的論文,可以和同學一起討論論文復現結果等細節,歡迎大家加入並積极參与活躍!

掃碼添加小助手微信,發送【XX論文】,如:強化學習論文,即可進入相關的論文討論群。