不用綠幕也能做特效,谷歌「LED蛋」讓你告別五毛特效,光線、影子都能調

  • 2019 年 11 月 24 日
  • 筆記

來源:公眾號 機器之心 授權轉

影視作品裏許多特效場景都需要藉助綠幕完成,在技術不過硬的時候,常會發生「五毛特效」的慘案。來自谷歌的研究者發明了一種 Bling Bling 的「LED 蛋」3D 人體捕獲裝置:先把表演者請進「蛋」里一陣猛拍,然後進行重建和渲染,就能任意切換人物所處的環境,連光照、陰影都可以根據環境進行調整,簡直完美。

「燈光」在影視作品、遊戲和虛擬環境中的作用至關重要——有時候它是決定一個場景表演質量的關鍵,這個很容易理解。比如某些古裝劇的某些場景會讓人非常齣戲,除了演員的演技太差之外,很有可能是因為光效不太自然,盯着電視機屏幕時,你甚至能想像出來演員頭頂的攝影棚。

在影視製作過程中,想要複製完美的光效仍然是個難題。隨着計算機視覺技術的演進,計算機已經能夠比較「自然」地還原人臉形狀、皮膚紋路,但是在模擬燈光條件這一塊還是缺乏寫實感。

谷歌這個全新的系統可以完美還原人物周圍的光影效果,使得合成的影像看起來更加逼真。通過與 AR 等技術的融合,該系統可以無縫地將捕捉到的人體融合到現實世界中或電影、遊戲等中的數字場景。它可能會徹底變革 3D 捕獲技術領域。

用來拍攝的「LED 蛋」。

人在「LED 蛋」中完成各種動作。

這個「LED 蛋」實際上名為 Relightables,它可以捕捉人身上的反射信息,即光線與皮膚的交互,這是數字 3D 人物看起來是否逼真的關鍵。之前的研究要麼使用平面照明,要麼需要計算機生成人物。谷歌的系統不僅能捕捉人身上的反射信息,還能記錄人在 3D 環境中自由移動時的信息。因此,該系統能夠在任意環境中重新調整人物的光照。

圖 1: Relightables 系統,這個體積捕獲設置將傳統的計算機視覺流程與深度學習的最新進展相結合,可以在任意環境中重現高質量模型。

論文地址:https://dl.acm.org/citation.cfm?id=3356571

在之前的研究中,相機只從單一的視角和光照條件下記錄人體。但谷歌的系統可以讓用戶在任意視角和條件下查看被記錄的人,不需要綠幕來創建特效,可以實現更加靈活的照明條件。

在 11 月 17 日-20 日於澳大利亞舉行的 ACM SIGGRAPH 亞洲展覽會上,谷歌公開展示了 Relightables 系統。

Relightables 系統

谷歌的 Relightables 系統工作流程可分為三個部分:捕捉、重建和渲染。首先,研究者設計了一個全新的主動深度深度傳感器,用來捕捉 12.4MP 的深度圖。然後,他們展示了如何設計一個混合幾何和機器學習重建流程來處理高分辨率輸入並輸出一個體積視頻。接下來,他們利用在 60Hz 頻率下獲得的兩種交替顏色梯度照明圖像中的信息,為動態表演者生成時間上一致的光照圖像。

總體流程如下:

圖 8:Relightables 流程(第一部分)。首先,原始圖像將用於重建高質量 3D 模型。

圖 9:Relightables 流程(第 2 部分)。對該網格進行下採樣,隨時間推移跟蹤並進行參數化。

圖 10:Relightables 流程(第 3 部分)。最後,由兩個梯度照明條件推斷出反射率圖。

捕捉

該系統的核心依賴於一個包含多視角(主動)立體深度傳感器的燈光球面舞台,舞台周圍有 331 個可編程的燈以及 90 個高分辨率 12.4MP 重建相機。

捕捉人體所用的相機包含 32 個紅外(IR)相機和 58 個 RGB 相機。紅外傳感器提供準確、可信賴的 3D 數據,RGB 相機捕捉高質量幾何法線貼圖和紋理。這些相機以 60Hz 的頻率記錄原始視頻,研究者基於球面梯度照明交替使用兩種不同的照明條件。

用於捕捉人體的相機如下所示:

圖 3:主動深度傳感器組件。

捕捉 600 幀(10 秒)的圖像可以生成 650GB 的數據。對於每個部分,研究者還記錄了一個幾何校正序列和一個 50 幀的 clean-plate 序列(即沒有人的舞台)。後者用於在實際表演過程中分割表演者。

重建

接下來,研究者將數據上傳到公共存儲庫中,第一個階段是生成每個「機位」的深度圖、分割圖和 3D 網格 [Kazhdan 和 Hoppe 2013]。

他們用一個對齊算法來處理重建網格的序列,如此一來,長的子序列就可以共享常見的三角定位(triangulation)。研究者提出了一種新的方法來解決關鍵幀的選擇問題,將其轉變為一個 MRF 推理問題來解決。每個獨特的三角定位都被參數化為普通的 2D 紋理空間,該空間可以和所有共享該三角定位的幀共享。

渲染

每個網格都有兩個可用的梯度球形照明圖像,從中可以生成反照率、法線、光澤度和環境光遮擋圖。這些圖與標準渲染引擎兼容,可用在任何設定的光線條件下重新生成渲染圖像。

系統各模塊到底怎麼樣?

整個系統是非常複雜的一個處理流程,研究者在論文中分析了系統的主要模塊,從而驗證提出的方法。這些模塊評估包括深度預測、圖像分割、最優網格追蹤、UV 參數化、紋理對齊等等,這一部分只簡要展示幾大模塊的效果,更多的評估效果可參考原論文。

對於深度估計模塊,圖像展示了 SAD 和 VGG 在基於 RGB 圖像做立體匹配的效果。我們可以看到論文採用的 VGG 要提供更加平滑的結果。

研究者表示,從立體視角中抽取深度圖像特徵非常重要,他們表示儘管 VGG 這類深度模型非常強大,但它在牛仔褲等少紋理的區域效果還是不夠好。對於分割模塊,研究者使用深度學習將先驗知識都嵌入到 CRF 中,包括前景與背景的顏色和深度信息。

研究者的立體分割能夠標註手上的籃球,這在單圖像分割是做不到的。

紋理對齊大大改善了快速切向運動時的渲染效果。

相比 Collet 等人最佳的體積重建模型,研究者重現實現了很多模塊。如下所示為研究者提出的分割方法與 Collet 等人方法的對比。其中研究者的方法能生成高質量的結果,而 Collet 也能生成非常令人滿意的紋理網格,只不過 Collet 缺失了高頻細節。

圖 19:研究者的重構結果與 Collet 方法的對比,由於更高的分辨率、深度相機和光度立體法估計,研究者的方法展示了更多的幾何細節。

參考鏈接:https://techxplore.com/news/2019-11-google-captures-character-virtually-environment.html