CVPR TOP10 論文盤點:帶你窺探電腦視覺的未來

  • 2019 年 10 月 4 日
  • 筆記

本文轉載自:讀芯術(AI_Discovery)

全文共5013字,預計學習時長10分鐘

如果你沒能親臨CVPR(IEEE國際電腦視覺與模式識別會議)的現場,無需擔心。本文將列出廣受關注的前十篇論文,包括深度偽造、面部識別、重建等話題。

1. 學習對話姿勢的個人風格(Learning Individual Styles of Conversational Gesture)

全文鏈接: https://www.profillic.com/paper/arxiv:1906.04160

TLDR:在輸入音頻演講後,生成與聲音協調的可能的姿勢,併合成相應的演講者影片。

使用的模型/架構:演講到姿勢的翻譯模型。一個迴旋型音頻編碼器降低了二維聲譜圖的取樣頻率,並將其轉成一維訊號。之後,翻譯模型G會預測一些相應的短暫的二維姿勢。真實姿勢的L1回歸將提供一個訓練訊號,同時對抗性鑒別器D會確保預測動作既保持短暫的連貫性,也符合講話者的風格。

模型準確度:研究人員定性地將演講到姿勢的翻譯結果與基準線和真實姿勢順序進行比較(作者在文中的表格顯示較低的損失和新模型較高的PCK值)。

使用的數據集:通過Youtube獲取演講者特有姿勢的數據集。總共有時長為144小時的影片。研究人員將數據分類,80%用於訓練,10%用於佐證,剩下的10%用於測試集,因此每一段影片源只在一個集合中出現。

2. 有質感的神經性化身(Textured Neural Avatars)

全文鏈接:https://www.profillic.com/paper/arxiv:1905.08776

TDLR:研究員展示了用於學習全身神經性化身的系統,如深度網路,它會生成個人全身的效果圖,顯現多變的身體姿勢和相機位置。這是從神經出發的人類化身的效果圖,但並未重塑身體的幾何結構。

使用的模型/架構:有質感的神經性化身的綜述。輸入姿勢被定義為一堆「骨架」的光柵化(一條信道上有一根骨頭)。完全卷積的網路(發電機)會處理輸入,從而生成人體部位分配的地圖堆以及人體部位協調的地圖堆。這些地圖堆之後會用於對人體肌理地圖的取樣,人體部位的協調堆規定了取樣地點,並使用人體部位分配堆規定權值,製作RGB影像。除此以外,最後的人體分配地圖堆與背景可能性保持一致。在學習過程中,掩碼和RGB影像均需同真實情況作比較。通過在完全卷積的網路運轉中、肌理上取樣,所得損失進行反向傳播,最終更新模型。

模型準確度:在有結構的自相似性(SSIM)方面表現優於另外兩種模型,在Frechet Inception Distance(FID)方面表現比V2V突出。

使用的數據集:

· CMU全景數據集收藏的兩個子集。

· 使用一套包含七個相機、橫跨約30度的裝備,捕捉針對三個目標的多視圖序列。-從另一篇文章及Youtube影片里得來的兩個短的單目序列。

3. DSFD:二元鏡頭面部檢測器(DSFD: Dual Shot Face Detector)

全文鏈接: https://www.profillic.com/paper/arxiv:1810.10220

TLDR:研究員提出一項嶄新的面部檢測網路,其中有三項全新貢獻,它們解決了面部檢測的三個重要方面,包括更好的特徵學習、不斷發展的損失計劃和以錨地分配為基礎的數據擴大。

使用的模型/架構:DSFD框架在前饋的VGG/ResNet架構頂端使用了特徵加強模組,從原始特徵中生產強化版特徵,同時還有兩個損失層,分別是服務原始特徵的第一鏡頭PAL和服務受迷惑特徵的第二鏡頭。

模型準確度:在受歡迎的基準上的大量實驗表明:WIDER FACE和FDDB認為DSFD(二元鏡頭面部檢測器)比最新面部檢測器(如PyramidBox和SRN)更具權威性。

使用的數據集:WIDER FACE和FDDB。

4. GANFIT:適用於高保真3D面部重建的生成對抗網路(GANFIT: Generative Adversarial Network Fitting for High Fidelity 3D Face Reconstruction)

全文鏈接: https://www.profillic.com/paper/arxiv:1902.05978

TLDR:研究人員提議的深度適用方法能通過一張影像,使用精準的身份恢復工作,重建高品質的肌理和結構。圖中以及論文其餘部分的人物重建是由大小為700浮動點的向量展現的,且在沒有任何特技的情況下進行實施(模型重建了被描述的肌理,但沒有任何特徵是直接從影像中提取的)。

使用的模型/架構:3D面部重建過程由可辨別型渲染器實施。成本函數的公式編寫主要通過預訓練的面部識別網路,且成本函數被優化,方法是全程流動錯誤、回到有著梯度下降優化的潛藏型參數。端到端可辨別型架構讓人們可以使用價廉質優的電腦,優化第一指令衍生物,從而實現將深度網路用於發生器(如統計學模型)或成本函數。

模型準確度:MICC數據集上的網狀物運用點到面距離的準確度結果。表格表明平均誤差(平均值)、標準化推導(Std.)在所提出的模型中數值最低。

使用的數據集:MoFA-測試、MICC、Labelled Face in the Wild(LFW)數據集和BAM數據集。

5. DeepFashion2:用於穿著影像檢測、姿勢估計、分類以及再識別的通用基準(DeepFashion2: A Versatile Benchmark for Detection, Pose Estimation, Segmentation and Re-Identification of Clothing Images)

全文鏈接: https://www.profillic.com/paper/arxiv:1901.07973

TLDR:DeepFashion2為穿著影像檢測、姿勢估計、分類以及再識別提供了新基準。

使用的模型/架構:R-CNN匹配由三個主要部分組成,即特徵提取網路(FN)、知覺網路(PN)和匹配網路(MN)。

模型準確度:R-CNN使用真實的邊界框,準確度小於0.7,排名前二十。這表明檢索基準很有挑戰性。

使用的數據集:DeepFashion2包含491k的多樣化影像,這些影像來自於廣受商業購物店和消費者歡迎的13個分類。

6. 逆向烹飪:通過食物圖片獲得菜譜(Inverse Cooking: Recipe Generation from Food Images)

全文鏈接: https://www.profillic.com/paper/arxiv:1812.06164

TDLR:臉書研究員用AI技術從食物圖片提取菜譜。

使用的模型/架構:菜譜生成模型-研究員用圖片編碼器提取影像特徵。食材編碼器預測出食材,再通過食材編碼器將食材編進成分嵌入。通過圖片嵌入、食材嵌入以及先前的預測性文字,烹飪指令解碼器會生成菜譜標題以及一系列烹飪步驟。

模型準確度:使用者研究結果表明該系統準確度超過最新型由圖片到菜譜的檢索方法(該系統優於人類基準線以及包含49.08%F1並以檢索為基礎的系統)(F1高分意味著低錯誤正數和低錯誤負數)。

使用的數據集:研究員運用大規模菜譜1M數據集衡量整個體系。

7. ArcFace:為進行深度臉部識別的累加有角邊界損失(ArcFace: Additive Angular Margin Loss for Deep Face Recognition)

全文鏈接:https://arxiv.org/pdf/1801.07698.pdf

TLDR:ArcFace獲取了更多區別性深度特徵,並在百萬臉龐的挑戰中以可再生的方式中進行最新演示。

使用的模型/架構:為增強同組的緊密性、加大不同組間的矛盾,研究員提議使用累加有角邊界損失(ArcFace),在樣品和中間插入一個測地線的距離邊緣。這樣做能加強面部識別模型的區別能力。

模型準確度:被報道的全面實驗表明ArcFace在不斷超越最新系統。

使用的數據集:研究員們使用CASIA、VGGFace2、MS1MV2以及DeepGlint-Face(包括MS1M-DeepGlint和Asian-DeepGlint),將它們作為訓練數據,與其他方法一起進行公平比較。其他實用的數據集為LFW、 CFP-FP、AgeDB-30、CPLFW、CALFW、YTF、MegaFace、IJB-B、IJB-C、Trillion-Pairs和iQIYI-VID。

8. 統一的方法——對在線物品進行快速追蹤及分類(Fast Online Object Tracking and Segmentation: A Unifying Approach)

全文鏈接: https://www.profillic.com/paper/arxiv:1812.05050

TLDR:這個方法也被戲稱為SiamMask,它改善了廣受歡迎的全面卷積的Siamese方法的線下訓練流程,通過一個二元分類任務增大損失,追蹤物品。

使用的模型/架構:SiamMask旨在通過視覺追蹤任務及影片物品分類尋找交集,從而實現可操作的最大便利。和傳統物品追蹤器一樣,該方法也依賴於一個簡單的邊界框的初始化,並在線上運轉。與最新款追蹤器,如ECO不同的是,SiamMask能夠生成二元分類任務,更精確地描述目標物體。SiamMask有兩個變數:一是有三個分支的架構、二是有兩個分支的架構(可通過論文獲取更多細節)。

模型準確度:SiamMask用於VOT(視覺上物品追蹤)和DAVIS(密集型配注釋的影片分類)序列所得的定性結果在論文中有所體現。不僅在高速中,哪怕在干擾器中,SiamMask也能生成精確的分類掩飾。

使用的數據集:VOT2016、VOT-2018、DAVIS-2016、DAVIS-2017和YouTube-VOS。

9. 通過行為重建轉化結構,從而展現場景(Revealing Scenes by Inverting Structure from Motion Reconstructions)

全文鏈接: https://www.profillic.com/paper/arxiv:1904.03303

TLDR:微軟公司的一組科學家和學者重建點雲數據中某一場景的色彩影像。

使用的模型、架構:研究員的方法基於級聯U-Net,它的角色是輸入值。通過一個特定角度包含的點深度、視覺性色彩及SIFT描述,可得到一個2D多波段的點影像。同時該影像會輸出該特定角度下場景的色彩影像。

所用的網路有三個子網路:VISIBNET、COARSENET和REFINENET。該網路的輸入是多維度nD列。論文還探索了網路變數,其中輸入值是不同的深度色彩和SIFT描述的不同子集。三個子網路有相似的架構,都有編碼器和解碼器圖層的U-Nets,圖層中有對稱的跳躍連接。在解碼圖層低端的額外圖層有助於高維度輸出。

模型準確度:該論文認為,令人驚訝的高品質影像可以在數量受限的且與稀少的3D點雲模型一起儲存的資訊中進行重建。

使用的數據集:在700+室內和室外SfM重建結構上訓練,該結構由500k+多角度影像產生,而這些圖形選自NYU2和MegaDepth數據集。

10. 具有空間適應性普遍化的語義影像合成(Semantic Image Synthesis with Spatially-Adaptive Normalization)

全文鏈接:https://www.profillic.com/paper/arxiv:1903.07291

TLDR:將塗鴉轉化成驚艷又逼真的風景!NVIDIA研究運用生成式對抗性網路創造高度逼真的場景。藝術家使用漆刷和漆桶工具,運用水、岩石和雲朵等標籤設計風景。

使用的模型、架構:

在SPADE中,掩碼首先被投射到一個嵌入式空間,之後以卷積的形式生成調製參數γ和β。與之前假定的標準化方法不同,γ和β並非矢量,而具有空間維度的張量。生成的γ和β不斷增多,進行元素的正常化激活。

在SPADE生成器中,每個標準化圖層都使用分類掩碼調整圖層激活。(左邊)帶有有SPADE的殘差模組結構。(右邊)生成器包括一系列SPADE有未取樣圖層的殘差模組。

模型準確度:該架構能用更少參數帶來更好表現,方法在於去除主要影像到影像翻譯網路的縮減取樣圖層。所使用的方法成功地應用在多樣場景中,從動物到體育活動,生成真實影像。

使用的數據集:COCO-Stuff, ADE20K, Cityscapes, Flickr Landscape