2D照片秒變3D,Adobe新方法讓你只用一張圖像輕鬆做特效

  • 2019 年 10 月 6 日
  • 筆記

選自arXiv

作者:SIMON NIKLAUS等

機器之心編譯

參與:魔王

Ken Burns 特效是通過平移和縮放使靜止圖片動態化的一種特效,之前的方法需要多張輸入圖像,而且考驗用戶的圖像處理技術。現在不用了,來自美國波特蘭州立大學和 Adobe 的研究人員提出了一種新框架,它能基於單張圖像合成 3D Ken Burns 特效,並支持全自動模式和用戶控制攝像機的交互模式。

論文地址:https://arxiv.org/abs/1909.05483

Ken Burns 特效,是一種通過虛擬攝像機掃描和縮放使靜止圖片動態化的特效。添加視差是創建 3D Ken Burns 的重要因素,帶來了很多不可思議的畫面。手動創建此類特效很費時間,並且需要足夠的圖片編輯技巧。

但是,現有的自動方法需要多張不同視角的輸入圖像。最近,來自美國波特蘭州立大學和 Adobe 的研究人員提出了一種新框架,它能基於單張圖像合成 3D Ken Burns 特效,並支持全自動模式和用戶控制攝像機的交互模式。

圖 1:單張圖像生成的 3D Ken Burns 特效。基於單張輸入圖像和用戶自選標註(以裁剪窗口形式),該框架使靜止輸入圖像動態化,並通過添加視差來合成 3D Ken Burns 特效。

示例如下:

該框架首先利用景深預測流程,估計適合視圖合成任務的景深。為了解決現有景深估計方法的局限性,如幾何失真、語義失真和不準確的景深邊界,研究者開發了一種語義感知神經網絡用於景深預測,輔以基於分割的景深調整流程,並使用精鍊神經網絡提升目標邊界的景深預測準確率。

該框架根據景深估計,將輸入圖像映射至點雲,並從對應的攝像機位置渲染點雲,從而合成最終的視頻幀。為了解決空洞問題(disocclusion)同時保證合成結果具備時間和幾何連貫性,研究者利用上下文感知的顏色修復和景深修復技術,填充攝像機路徑極端視圖中的丟失信息,從而擴展點雲的場景幾何(scene geometry)。研究者對大量圖像內容進行實驗後發現,該方法可以實現逼真的合成結果。該研究表明,相比已有的 3D Ken Burns 特效生成方法,這一系統不費吹灰之力即可實現更好的合成結果,。

研究貢獻

這篇論文主要介紹如何基於單張圖像,自動合成 3D Ken Burns 特效。研究者納入了簡單的用戶指定攝像機路徑(可選),以期望開始視圖和結束視圖進行參數化,保證用戶對合成特效的控制。

基於單張圖像合成逼真的移動鏡頭效果是一個非常難的問題,它需要解決兩個基礎難題:1)要想基於新攝像機位置合成新視圖,就需要準確復原原始視圖的場景幾何;2)從預測場景幾何中合成具備時間連貫性的新視圖序列需要處理空洞難題。該研究解決了這兩大難題,並提供了一個基於單張圖像合成 3D Ken Burns 特效的完整系統。

首先,該系統基於輸入圖像估計景深圖。近年來現有的景深預測方法迅速發展,但單目景深估計仍然是難解問題。研究者觀察到,已有的景深預測方法並不是特別適合視圖合成任務。具體而言,研究者發現要想使用這些方法進行 3D Ken Burns 特效合成需要解決三個關鍵問題:幾何失真、語義失真和不準確的景深邊界。

基於此,研究者設計了一個景深估計流程以及專門解決這些問題的訓練框架。他們開發了語義感知景深估計神經網絡,並在其最新創建的大規模合成數據集上進行模型訓練,該數據集包含不同照片級真實感場景的真值景深。

這樣,景深預測流程和新型視圖合成方法結合起來形成一個完成的系統,可實現基於單張圖像的 3D Ken Burns 特效生成。該系統提供全自動的解決方案,自動確定虛擬攝像機的開始視圖和結束視圖,從而最小化遮蔽物的數量。

3D Ken Burns 特效合成

該框架包含兩個主要組件:景深估計流程(見圖 3)和新型視圖合成流程(見圖 7)。

語義感知景深估計

圖 3:該研究提出的景深估計流程圖示。給出一張高分辨率圖像,研究者首先基於低分辨率輸入圖像估計粗糙景深。

要想合成 3D Ken Burns 特效,該方法首先需要估計輸入圖像的景深。研究者將景深估計分為 3 個步驟:

  1. 利用低分辨率圖像估計粗糙景深,同時依靠 VGG-19 提取的語義信息提升泛化性。
  2. 根據 Mask R-CNN 的實例級分割結果調整景深圖,確保顯著目標內的景深值連貫。
  3. 精鍊輸入圖像指引的景深邊界,同時對低分辨率景深估計進行上採樣。

圖 4:景深估計中間結果。該示例展示了景深估計流程中每一步的貢獻。

最初估計的景深遭受語義失真(紅色汽車)和不準確的精神邊界(如塔輪廓上的凸起)。景深調整可解決紅色汽車的語義失真問題,景深精鍊可解決目標邊界的細微細節問題。

上下文感知的視圖合成修復技術

為基於景深估計合成 3D Ken Burns 特效,該研究提出的方法首先將輸入圖像映射至點雲中的點。然後沿着預先確定的攝像機路徑從對應攝像機位置開始渲染點雲,從而合成所得視頻中的每一幀。但是,點雲只是從輸入圖像看到的世界幾何部分視圖,因此得到的新視圖渲染結果並不完整,存在遮蔽物引起的空洞。

圖 7:新型視圖合成方法圖示。基於輸入圖像點雲和景深圖,從新的攝像機位置渲染後續新視圖。

該研究設計了一個專門的視圖合成流程來解決圖 7 中的要求。給出輸入圖像的點雲及其景深估計,研究者利用顏色修復和景深修復技術填充不完整新視圖渲染結果的丟失區域。

圖 5:點雲渲染圖示。用初始景深估計的點雲展現深度精鍊的重要性,因為目標可能會在目標邊界處被分割開。

涉及景深的圖像修復技術可實現幾何連貫的圖像修復。然後使用修復景深將修復顏色映射至現有點雲中的新點,從而解決遮蔽物的問題。

要想按預先確定的攝像機路徑合成 3D Ken Burns 特效,僅在起始和結尾等極端視圖中執行顏色和景深修復即可。渲染擴展後的點雲可保持時間連貫性,而且能夠實時完成。

圖 6:視頻合成結果示例,對比了兩種流行的即拿即用圖像修復方法和該研究提出的方法。由於待修復區域本質上並非矩形,因此 DeepFill 無法修復出合理的結果。EdgeConnect 的修復結果更加合理,但不具備時間連貫性且無法保持目標邊界。而該研究提出的修復方法既具備時間連貫性,又能保持清晰的目標邊界。

實驗

研究者對比了現有解決方案和新框架在合成 3D Ken Burns 特效方面的效果。他們考慮了兩種商業系統:第一種是 Photo Motion 軟件包,是 Adobe After Effects 的模板;第二種是移動 app Viewmee,它可使非專業用戶輕鬆創建 3D Ken Burns 特效。

圖 10:易用性研究結果。新系統可使用戶不費吹灰之力得到優秀結果。

圖 11 展示了兩個示例,對比了新方法生成的 3D Ken Burns 特效和使用同樣開始視圖、結束視圖裁剪窗口得到的 2D 版本。2D 版本具備典型的縮放特效,但沒有視差。而新方法包含逼真的移動視差和強大的景深預測,因此特效結果更好。

圖 11:2D Ken Burns 和 3D Ken Burns 特效對比圖。注意移動視差方面的差異。

表 1(上)根據每個基準定義的不同量化指標對比不同方法的景深預測質量。該研究提出的方法在所有景深質量指標上均可媲美當前最優的景深預測方法。

表 1(下)列舉了新方法的兩種變體,方便更好地分析景深估計網絡和訓練數據集的效果。具體而言,研究者使用 DIW 數據集的所有可用訓練數據訓練網絡架構,與基於研究者創建的數據集訓練的網絡進行對比。

表 1:景深預測質量。新方法在所有景深質量指標上均可媲美當前最優的深度預測方法。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。