告別馬賽克畫質:NV新技術可壓縮90%流量

為了讓網速慢的用戶用上高清通話,NVIDIA 可謂絞盡腦汁。他們開發的新AI演算法,可以將影片通話的流量最高壓縮90%以上。

和其他影片相比,通話的場景比較單一,基本上只有人的頭部在運動。因此只要能把頭像數據大規模壓縮,就能大大節約流量。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

NVIDIA 的新演算法face vid2vid正是從這一點出發。只要一張圖片,就能實現重建各種頭部姿勢圖片。

H.264影片所需的頻寬是這種新演算法的2~12倍,從前面的演示也能看出,如果讓二者使用相同比特率,那麼H.264影片幾乎不可用。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

轉動面部不扭曲

NVIDIA 提供了一個試用Demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(翻滾角)三個方向上任意旋轉。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

輸入一張人臉,最多可以在每個方向上最多旋轉30度。以下是三個方向上旋轉到最大角度生成的圖片。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

與相比之前的方法,NVIDIA 的這種技術即使在面部轉動幅度較大時,人臉也不會扭曲變形。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

然而,圖片終究是不動的,要把生成的人臉放在運動的影片中還要多一個步驟。

合成面部影片

我們把上傳的清晰照片作為源影像,從中獲取外貌特徵。然後把影片中一幀幀畫面作為重構影片的依據,從中提取出面部表情和頭部姿勢等資訊。

而表情和姿勢這兩個數據可以通過關鍵點進行編碼,這樣就分離了人物身份資訊和運動資訊。在傳輸影片時只要有運動資訊即可,從而節約了流量。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

從源影像s中,我們得到了兩組數據:關鍵點坐標x和雅可比矩陣J。這兩組參數與面部的具體特徵無關,只包含人的幾何特徵。

其中,雅可比矩陣表示如何通過仿射變換將關鍵點周圍的局部修補程式轉換為另一幅影像中的修補程式。如果是恆等雅可比矩陣,則修補程式將直接複製並粘貼到新位置。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

下圖展示了計算前5個關鍵點的流程。給定源影像以及模型預測的規範關鍵點。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

從運動影片估計的旋轉和平移應用於關鍵點,帶動頭部姿勢的變化。然後可以感知表情的變形將關鍵點調整為目標表情。

接下來開始合成影片。使用源和運動的關鍵點與其雅可比矩陣來估計流wk,從生成流組合成掩碼m,將這兩組進行線性組合即可產生合成流場w。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

接著輸入人臉面部特徵f,即可生成輸出影像y。

這種方法不僅能用於影片通話,也有其他「新玩法」。

比如覺得人物頭像有點歪,可以手動輸入糾正後的數據,從而將面部轉正。

又或者是,把一個人的面部特徵點和雅可比矩陣用於另一個人,實現面部影片動作的遷移。

團隊簡介

這篇文章的第一作者是來自NVIDIA 的高級研究員Ting-Chun Wang。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

文章的通訊作者是NVIDIA 的著名研究員劉洺堉。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量

如果你長期關注CV領域,一定對這兩位作者非常熟悉。他們在影像風格遷移、GAN等方面做出了大量的工作。

兩人之前已經有過多次合作。比如。無監督影像遷移網路(NIPS 2017),還有從塗鴉生成照片的GauGAN(CVPR 2019),都是出自這二位之手。

告別影片通話「渣畫質」:NVIDIA新演算法最高壓縮90%流量