優Tech分享 | 人臉3D重建與渲染技術研究與應用

圖片

6月5日—6日,2021全球人工智能技術大會(GAITC 2021)在杭州成功舉辦。本次大會,旨在匯聚中國科創智慧與活力的同時,與世界建立互通共享的溝通橋樑,在交流中探索共建美好智能時代的合作方案和發展共識,同時以最前沿的國際視野推動人工智能高速、有序、安全發展,造福人類生活。

近年來,人臉3D技術在各個行業和領域得到了越來越廣泛的應用,大會上,騰訊優圖實驗室研究員葛彥昊以《優圖3D重建與渲染技術研究與應用》為主題,重點分享了優圖3D技術在人臉領域的研究與應用相關內容,闡述了對於人臉3D技術的探索心得。以下為內容精要:

01

人臉3D技術簡介

人臉3D技術研究作為計算機視覺領域的核心研究課題之一,多年來始終維持極高的研究熱度,與此同時和人臉3D相關的產業應用也十分廣泛,在社交、遊戲、影視等行業均湧現出豐富的人臉3D類產品和應用,優圖在人臉3D技術方面主要包括兩個重點研究方向:一是關於人臉3D重建,二是關於人臉3D的驅動與渲染。

 人臉3D重建

人臉3D重建是指通過人臉2D的圖像有效還原人臉的3D信息,包括人臉幾何重建與紋理重建等。其評價標準主要包括兩個角度:定量與定性。

人臉幾何重建:從定量角度來看,可以通過3D掃描採集的數據來對比毫米精度的重建誤差;從定性角度來看,可以通過直觀感受,即不依賴任何紋理信息的輔助情況下,看能否通過幾何信息判斷被重建人員的身份。同時,我們也可以針對局部,看局部幾何的表達是否與輸入的圖片精準對應。

人臉紋理重建:目標是有效還原人臉真實的3D紋理信息,包括Diffuse、Specular以及光照參數等。從定量角度來看,可以通過光場採集的數據來面向人臉像素的誤差;從定性角度來看,可以通過去除光照之後的人臉紋理,在清晰度、自然度、均勻度方面是否達到「照片級」還原,以及人臉紋理信息相關分量是否被正確解耦來評價效果。

圖片

 人臉3D驅動與渲染

人臉3D驅動與渲染,是指基於已重建的3D人臉信息去驅動特定的3D模型,並在指定光照和參數後投影2D平面呈現出對應的光影實效(即渲染)的過程。它們的評價標準依然可以通過定量與定性兩個角度進行。

人臉3D驅動:從定量角度來看,可以通過多項級陣列的採集來對比毫米的精度、重建的誤差來評價驅動效果;從定性角度來看,可以通過被驅動3D模型的姿態表情是否與驅動的人臉精準對應,並且整體保持良好的自然度來進行評價。

人臉3D渲染:從定量角度來看,可以通過定量光場來進行評價;從定性角度來看,可以通過渲染的光影視效是否足夠真實,是否儘可能符合完整的物理學定律來進行評價。

圖片

 研究趨勢

關於人臉3D重建、人臉3D驅動與渲染目前的研究趨勢,主要有兩大方向:

一是面向模型學習過程的深度學習,通過深度神經網絡訓練引入更多約束和先驗知識輔助來獲得更優的重建結果,例如將更多圖像像素信息納入重建過程的參考,同時結合同ID多張人臉信息進行聯合重建等。

二是結合自監督模式的圖形學習方法,以往的人臉3D重建與驅動方法往往僅依賴人臉關鍵點或像素視覺特徵,而近年來更多前沿研究引入了人臉固有的幾何屬性特徵例如對稱性、五官幾何分佈一致性等,並取得了明顯的重建效果提升。在未來,基於自監督圖形學習的重建方法不僅具有獲得更高重建精度的潛力,同時也將使模型擁有更強的通用性和泛化能力。

優圖近年在人臉3D的重建以及驅動具體研究工作中,也是圍繞着這樣的趨勢來進行深入研究。

02

人臉3D重建技術研究

優圖關於人臉3D重建技術相關的研究工作,主要包括人臉的幾何重建和人臉的紋理重建兩個核心任務。

 人臉幾何重建

人臉的幾何重建大致可以分為兩個方向:

方向一是通過參數化的人臉3D圖片,即經典的人臉3DMM優化方法,通過一些3D先驗知識的輔助去重建出人臉幾何形狀;近期的一些方法是基於3DMM人臉基底,去訓練對應的深度學習網絡,學習對應的3D參數來進行擬合。

目前,優圖在方向一(參數化人臉3D重建)有着較多積累,從0到1構建了屬於自己的一套人臉3DMM基底,以參數的形式表達了人臉的形狀和表情,用於支撐3DMM的人臉重建算法,基底中涵蓋了超過3450個ID以及52種面部的表情和表達,覆蓋了多人種及不同年齡段。基底可以分為形狀維度的基底和表情維度的基底。從原始的裸3D採集,到處理成降維之後的基底表達,以一套非常完整的、具有統一拓撲結構的3DMM基底支撐上層的3D重建任務。

圖片

有了基底之後,接下來的問題是如何合將這個基底應用於網絡訓練並獲得比較好的3D重建擬合結果。優圖自研了一套優圖參數化的人臉3D重建網絡,結合可微分渲染的模塊,讓重建結果不依賴紋理輔助也可明顯判斷出被重建人的ID。這個3D模型可支撐多種應用,例如把表情維度的每一個基底,改變參數來獲得基底表情動畫;或者以另外一張人臉來驅動已經重建好的3D模型,從而進行表情遷移。

方向二是關於非參數化的人臉3D重建——擺脫對人臉3DMM參數化的依賴,直接通過輸入一張人臉圖像,估計出對應這張人臉圖像的深度信息,從而獲得3D幾何效果,同時也考慮了一些多視角聯合的非參數化重建問題。

在方向二(非參數化人臉3D重建)方面,優圖近期也嘗試了很多任務研究,如無監督多視角重建,完全通過自監督的方式實現人臉3D的非參數化重建。但這個方法的重建尺度只能維持到64×64,沒有辦法融合更多人臉有效的3D信息進行聯合重建。

如果單純提升輸入輸出的尺度,輸出3D重建的結果會變得模糊,很多細節無法重建的很好。針對這個問題,我們做了一些有針對性的先期實驗,先通過從ID到不同視角的圖像,聯合學習一張這個人正臉自然表情下的紋理和深度;之後再結合特定視角的圖像,獲得與這個人特定視角下的形狀和紋理。通過這種方式,可以很好的將重建尺度和精度提升一個台階。以上方法對應我們中稿CVPR 2021 Oral的論文《Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection》(簡稱「LAP」)

圖片

值得一提的是,在運用「LAP」這套pipeline的時候其實有一個要求,輸入人臉的尺度必須需要保持較高的清晰度或者尺度,但實際上人臉圖像可能是低清或者低質的,想獲得相對高清的人臉3D重建結果在已有框架下無法滿足。我們的解決方案是先通過生成網絡的一些知識輔助,還原一張低清人臉的高清紋理,然後再將這個高清紋理配合原有的輸入去網絡學習,獲得高質量、高清晰度的深度重建結果與紋理表達。

 人臉紋理重建

人臉紋理重建與人臉幾何重建有很強的關聯性,人們最終看到的人臉圖像是幾何與紋理共同作用的結果,其中依託一個很重要的模塊——可微分渲染

在以前的紋理重建任務中,沒有辦法去判斷這個像素哪些分量是由紋理帶來的,哪些分量是由外界光照帶來的,哪些分量是由幾何因素帶來。近年來隨着可微分渲染技術的推出,我們可以將一張input的圖片理解為一個基於人臉幾何形狀,配合紋理、光照參數等共同渲染的過程,然後嘗試將這個過程反過來去進行梯度反傳,進而解耦人臉紋理相關的各個本徵分量。

圖片

人臉紋理重建結果的優劣一般可藉由Relighting任務來進行評估,良好的人臉紋理重建結果將獲得自然且真實的人臉Relighting效果。在人臉Relighting任務中,通常比較直接且有效的方案是基於光場相機採集的數據學習,首先搭建一個完整的光場系統,然後將人置於光場內進行數據採集——由於光場內的光源參數是已知的,因此可以獲得固定的光源相關參數,再將已採集人臉的圖像與這些光的參數進行融合構建樣本對,最終訓練相應的深度學習模型獲得人臉的本徵紋理表達。

以上方法的主要缺點是搭建光場系統並邀請大量真人進行光場數據採集過程需要耗費大量的人力物力成本。同時由於以上方法所採集的數據均在室內理想光源場景,因此在開放場景的泛化性存在局限。

圖片

為解決光場相機採集方法的諸多局限,近年來另一種人臉紋理重建思路是基於可生成對抗網絡(GAN)進行人臉紋理與光照學習。該方法將人臉紋理重建過程理解為端到端的生成任務,利用GAN網絡直接學習人臉圖像光照改變之後的光影圖像,或稱為關於人臉的光照屬性編輯,亦或對人臉在不同光照條件下的陰影圖像進行生成學習,最終將已學習的陰影圖像疊加回輸入原圖,實現人臉紋理重建的目的。然而基於GAN的人臉紋理重建方法仍然存在不足,即由於整套紋理本徵提取過程被隱式Encode進網絡中,因此無法嚴格確保在對人臉紋理進行Relighting過程保持高度的一致性,與此同時容易在光照條件相對極端時產生噪點或Artifacts。

為有效解決以上兩種方案各自的不足,優圖針對性提出了自研的無監督物理本徵學習方法,該方法通過可微分渲染技術有效對任意輸入的人臉圖像完成基於物理的本徵分解,獲得了符合物理渲染規律的人臉Diffuse、Specular以及Roughness等本徵分量。這一方法通過課程學習思路,首先藉由人臉幾何與紋理參數化模型進行初步估計,然後進行像素級別Refinement,最終不依賴任何光場採集數據即可實現面向in-the-wild人臉圖像的逼真Relighting效果。與此同時相比其他無監督學習方法僅可支持理想球協光照模型,優圖自研方法可實現對任意環境光貼圖(Irradiance Map)進行Relighitng,大幅提升了人臉紋理重建的解耦程度,支持基於更加複雜光照模型的物理Relighting。

圖片

綜上可見,關於人臉3D重建的相關研究依然面臨諸多問題與挑戰,在未來,優圖實驗室關於人臉3D方向的研究將着重從以下幾個方面展開:

01

面向人臉3D幾何與紋理的無監督多視角聯合學習,獲得更精準、更清晰的重建結果;

02

面向人臉幾何ID、表情與姿態,人臉本徵紋理與光照更好地解耦表達;

03

面向更高性能、更低功耗的人臉3D計算與優化;

044

面向更深入的CV與CG技術跨領域結合,提升重建算法在開放場景下的泛化能力。

03

人臉3D方向技術應用

優圖人臉3D相關技術已在多個業務場景獲得應用,各類3D能力有效提升用戶體驗。具體能力包括人臉3D美型、真實感3D特效以及人臉3D美妝等面向直播短視頻以及視頻會議場景的3D特效能力。與此同時,優圖與遊戲天涯明月刀合作研發的遊戲照片3D捏臉「黑科技」也已經順利應用落地,用戶依靠照片即可一鍵創建出與照片人臉一致的遊戲3D形象。

圖片

04

後記

隨着人工智能技術的不斷發展,人臉技術伴隨產業發展與各行各業全面滲透,並在越來越多領域被廣泛應用。作為騰訊CSIG旗下的頂級人工智能實驗室,優圖專註於在CV的領域,包括人臉人體、圖像識別、OCR等視覺領域的前沿技術研究和應用落地,為To B場景提供行業解決方案,同時為騰訊內部產品提供底層AI技術支撐,以科技助力全新的未來生活。