學術資訊|ICCV2019 | 騰訊優圖13篇論文入選,其中3篇被選為Oral

  • 2020 年 3 月 18 日
  • 筆記

兩年一度的國際電腦視覺大會 (International Conference on Computer Vision,ICCV) 將於 2019 年 10 月 27 日 – 11 月 2 日在韓國首爾舉行,近日論文收錄名單揭曉,騰訊優圖共有13篇論文入選,居業界實驗室前列,其中3篇被選做口頭報告(Oral),該類論文僅佔總投稿數的4.3%(200/4323)。

ICCV被譽為電腦視覺領域三大頂級會議之一(另外兩個為CVPR、ECCV),錄用率非常低,其論文集代表了電腦視覺領域最新的發展方向和水平。本屆ICCV共收到4323篇論文投稿,其中1075篇被錄用,錄取率25%。

本次入選的論文涉及2D影像多視圖生成、人臉照片的影像轉換等,提出了諸多亮點。

下面將對騰訊優圖入選的兩篇論文進行重點解析。

1、基於視角無關特徵的多視圖對抗生成框架 View Independent Generative Adversarial Network for Novel View Synthesis

本論文與香港中文大學合作完成。

2D影像的多視圖生成任務,指的是基於單張2D影像,生成其不同視角下的影像資訊。此類方法可以在不涉及複雜的三維重建的基礎上,實現多個視角下的資訊的合成觀察。例如下圖中給定特定視角的2D影像,可以生成其他各個視角的影像資訊:

該論文提出了一種適用於此類任務的對抗生成框架,旨在通過結合影像對應的相機參數資訊,實現對於多類物體均適用的多視角轉換框架。長遠來看,這項技術的應用有望讓普通的2D影片也能實現3D觀感,就像在電影院觀看的3D電影一樣。

現有的多視圖生成任務中,當前基於生成模型的方法將預先提取輸入影像中與視角資訊無關的特徵,而後將視角資訊相關的參數作用於此特徵,進而得到生成的結果。該論文中,作者使用此種思路,配合以多種損失函數的設置,利用相機參數加上影像資訊來得到與視角無關的特徵。相比於現有的方法,該方法適用於連續相機參數下的多視圖生成,並不限制於數個固定的視角。

除了合成視圖與監督資訊之間的損失函數之外,本文提出使用一種基於循環生成的重建損失函數,來提升合成視圖的準確性;同時借鑒目前的對抗生成技術,從影像本身的生成分布,與影像的姿態準確性保證兩方面出發,提出兩個不同作用的對抗學習損失,以提升生成影像的品質和合成視圖的姿態準確度。

該框架可以適用於不同類別的物體。

首先是人臉在預先設定的有限數目的視角之間的轉換結果。最左邊是輸入的2D影像,箭頭右側均為生成的,不同視角下的結果。

應對其他一般的物體。通過在Shape-Net這個數據集上的多個類別物體作為數據,得到以下結果:

通過在多個類別的物體上進行多視圖生成任務,利用多個定量定性指標來進行評價,證明該方法具有通用性,且在多個類別任務上表現良好。

本文入選ICCV 2019口頭報告(Oral),該類論文錄取率約4.3%。

論文地址:

http://jiaya.me/papers/vigan_iccv19.pdf

2、基於屬性自光流域的非監督影像轉換演算法  Attribute-Driven Spontaneous Motion in Unpaired Image Translation

微笑表情轉換結果圖。從左到右依次為:輸入、StarGAN結果、該論文結果

本論文與香港中文大學、哈工大深圳研究院合作完成。

人臉照片隨著社交軟體的普及被大幅度地應用於各種社交應用中,而人臉照片的自動化編輯一方面作為社交軟體的娛樂應用促進了社交用戶的交流,另一方面也幫助用戶對人臉照片進行快速的自動化編輯。由於深度學習的興起,基於深度神經網路的影像轉換(Image translation)技術常常被應用於影像編輯任務上。

現有的影像變換演算法主要基於生成對抗神經網路,這些演算法儘管能生成較高解析度的影像,但由於它們較少考慮影像之間的幾何變形關係,轉換後的影像往往包含許多瑕疵和失真,尤其是在原影像域和目標影像域幾何結構不一致的情況下。

本論文提出了SPM(自光流模組),希望通過學習不同影像域間的光流解決影像的幾何變換問題。其框架以傳統的生成器-判別器作為基礎,其中,生成器用於生成更好的影像,而判別器用於判別生成器生成影像的品質好壞,此外,他們在生成器的基礎網路結構上做出擴展以適應影像轉換之中的幾何變換。擴展後的生成器包含兩個主要模組,自光流模組SPM和微調模組R。此外,該論文還引入了從低解析度影像到高解析度的生成方案。

整體框架圖

本文提出的自光流模組,通過輸入原影像和目標屬性,自光流域模組旨在預測光流,並利用光流對原影像採用變形操作得到中間結果影像。該論文利用一個編碼-解碼網路作為該模組的主要結構,其中他們主要考慮了網路結構、域分類器、微調模組、殘差結構、注意力掩碼幾方面的設計。

同時,為了產生更高解析度的影像,該論文採用了一種新穎的粗到細的神經網路訓練策略。

在訓練好低分辨的神經網路後會有許多中間結果的低解析度表示。具體地,低解析度的自光流域w殘差r以及注意力掩碼m是已知的。為了得到它們的高解析度表示,首先對它們進行雙線性插值上取樣到解析度更高的w, r以及m。但是通過雙線性插值的上取樣所得到的結果往往是模糊的,因此對於這三個變數他們引入了三個小的增強神經網路對上取樣的結果進行微調。利用微調後的高解析度中間結果,我們即可對高解析度的輸入影像進行處理和轉換,並最後得到相應的高分辨轉換結果。

RaFD數據集上的影像轉換結果,從左到右依次為:輸入、憤怒、驚恐、開心(後三個為演算法生成結果)

本論文通過提出自光流模組,將影像域間的幾何變換顯式地引入到了影像轉換框架中。演算法主要在CelebA-HQ和RaFD數據集上進行驗證,其結果相比於現有演算法都有一定的提升。其各部分的實驗充分證明了該框架的有效性,並且取得了很好的影像轉換效果。這一框架也給解決影像轉換中的幾何變換問題提供了新的解決思路。