沉浸式音頻技術的製作,採集,播放及應用

  • 2019 年 10 月 7 日
  • 筆記

沉浸式音頻技術近年來逐漸擴大其應用範圍,常見應用於VR,影視,會議等場景。本文由時代拓靈創始人&CEO,孫學京博士LiveVideoStack線上分享的內容整理而成,從聲場採集,傳輸,渲染播放演算法以及軟硬體等方面詳細介紹了沉浸式音頻技術的發展與應用。

文 / 孫學京

整理 / LiveVideoStack

大家好,我是來自時代拓靈的孫學京。本次分享將主要介紹沉浸式音頻的從採集製作一直到播放整個鏈條上所需要的一些軟體和硬體的技術。

內容可以分為以下五個方面:

1. 沉浸式音頻簡介

2. 聲場採集技術,硬體和軟體

3. 製作、存儲、傳輸

4. 渲染播放

5. 行業現狀和相關應用

1. 沉浸式音頻簡介

1.1 什麼是沉浸式音頻?

什麼是沉浸式音頻?大家最近可能經常聽到「沉浸式音頻」,「全景聲」這兩個名詞,那麼它們與之前的環繞聲或者3D音頻有什麼本質的區別嗎?

通俗地講,它們之間可能有很多的相似之處。但就技術層面來說,從底層架構,到最終的展現形式都有非常大的變化。

首先我們把傳統的5.1音頻擴展為不僅包含聲道也包含對象和場景。目前,沉浸式音頻類型主要分為三大類:基於聲道Channel based audio (CBA)、基於對象Object-based audio (OBA)、基於場景Scene-based Audio (SBA)。

目前市面上一些主流的系統主要是Dolby Atmos、MPEG-H以及影視行業的SMPTE 2098協議。其主體還是基於Dolby Atmos,但同時它還允許其它不同標準被兼容在此協議內,也就是說Dolby Atmos某種意義上是SMPTE 2098的一個子集,我們可以在兼容Dolby Atmos的同時,推出自己的標準。因此我相信,接下來沉浸式音頻將來會迎來一個非常大的利好。

1.2 沉浸式音頻-傳統到3D音效

基於揚聲器的沉浸式音頻,常見的是5.1或7.1,如果是耳機設備,則會有HRTF雙耳3D環繞的音頻。5.1音頻實際上是固定的聲道位置,由左前、右前、左後、右後構成,而7.1就是在5.1基礎上再加兩個背後的聲道位置,.1就是低頻通道的意思。

目前新的沉浸式音頻,不再局限於平面式的聲道,進一步支援全面360度*360度的沉浸式音頻(支援高度)。例如影院的杜比影廳,頂部都會布有很多的喇叭;如果是家庭的話,我們經常叫做5.1.2,就是在頂上再設置兩個音箱,或者7.1.4就是在頂上再設置4個音箱。

真正想要達到一個非常好的沉浸式效果,頂部的高度資訊帶來的對人的感官衝擊感是非常強烈的,比如下雨或者打雷的聲音。即使在平時可能感覺不到很明顯的差別,但當你真的專註於音頻效果時,增加了高度資訊的音頻感覺就會非常震撼。

這種變革如果停留在傳統的5.1格式上是很難實現的。儘管傳統的做法通過布多層的方式也可以模擬出高度資訊,但是並沒有從根本上,即製作混音端來改變底層的架構。因此,高度資訊的增加實際上是對影視行業沉浸式音頻製作的巨大改變。加入高度資訊的音頻會有很高的沉浸感,並且底層的渲染技術比傳統的5.1混音要複雜很多,方位的渲染精度也會大大的提升,所以整體的渲染質感有很大的提升。另外,近幾年在AR或者VR時代,非常強調交互的特性。比如VR頭顯設備的頭部跟蹤、旋轉,不僅要旋轉影片,同時還需要旋轉聲場。這些都是傳統的5.1音頻(事先混音)很難實現的,而新的渲染技術,沉浸式音頻架構是可以實現的。

至於其它的應用方面,在看電視節目的時候,沉浸式音頻還可以靈活的根據不同的場合控制選擇不同的語言,選擇聲場中不同的方位進行體驗等。這些都是通過傳輸一個對象或者傳輸一個聲場的概念來實現的,而傳統的5.1或者立體聲傳輸是沒辦法實現的(無法實現單音軌分離)。

最後一點,製作與播放設備的分離。無論是5.1音箱、立體聲耳機或是其它設備,其中的混音都由渲染引擎中的軟體演算法來實現。在製作的時候,如圖,混音師就會假想出一個球形的空間場景,也就不再完全依賴必須有一個5.1的混音廳才能將聲音混好,並且完成一次混音就可以在任何地方進行播放。

1.3 Object Audio

DolbyAtmos的混音介面如圖右下角所示,是一個模擬電影院的方盒子,螢幕在前方。其中小球代表的是音頻對象,其在三維空間中會有一個運動的軌跡。混音師會戴耳機或者通過自己的混音環境來體驗混音(音頻對象)的軌跡,但實際最終播放的時候有可能是一個5.1或者7.1.4的混音環境,這個是由渲染引擎來完成的。

對象音頻是現在比較流行,並且逐漸佔據主流的。其源自於遊戲,杜比作為一個商業公司將對象音頻徹底商業化推行到影院中,並進行了許多商業演算法上的創新,解決了很多複雜的場景問題。

對象音頻的一項核心組成部分就是元數據,我們實際上是通過位置、擴展度或者運動特性等來描述對象音頻,這些元數據都要傳輸到渲染端,同時會進行一些編碼壓縮操作。對象音頻的渲染方法一般是基於Panning,就是聲音如何通過幅值、相位的關係在多個喇叭或者耳機里產生一定的方位感。

1.4 Scene-Based Audio

Scene-Based Audio主要是以MPEG-H為代表(實際指MPEG-H中Scene-Based Audio部分所佔比例較高)。Scene-Based Audio主要是用來描述場景的聲場,其核心的底層演算法是HigherOrder Ambisonic(HOA),因此一些新的沉浸式音頻的底層技術也不完全是新的,演算法以及新的技術都是漸進的,近幾年隨著頻寬的加大,隨著複雜度即算力的增強,以及AR、VR新的交互方式的產生促進了技術的迅猛提升。Ambisonic也煥發了青春,VR成功將其帶到了大眾的面前。Ambisonic 描述三維空間中的聲場,例如一階Ambisonic更多的是通過極坐標。

一階Ambisonics :FOA

Ambisonics 中存在一種階的概念,一階Ambisonics我們稱之為FOA(First-Order Ambisonics),零階即沒有任何方向,也就是全向麥克風來描述聲場。通常情況下,在Ambisonic中B格式為中間格式,聲場採集設備得到的原始訊號為A格式。為了便於後續的運算,無論麥克風是什麼樣子,通常都會轉化為通用格式即B格式。

如圖,X代表一個點元,通過Ambisonic的(W,X,Y,Z)表示,將其映射到一個聲場中是非常簡單的,主要是應用了三角函數進行一系列公式的計算。將其通用化後在高階時的表現即為球面諧波函數。

高階Ambisonics :HOA

描述聲場其實就是通過物理學的球面諧波函數來描述聲波在空間中的傳播,存在非常高的階數,如之前提到的零階、一階函數,甚至三階函數(右下角圖)。

2. 聲場採集技術

2.1 雙耳錄音

接下來介紹聲場採集技術,在音頻平台中比較常見的有雙耳錄音,模仿人類大腦工作方式,模擬人左/右耳聽到的聲音。常見的使用工具為3Dio人工頭麥克風。

上圖為VR時代,3Dio的升級(複雜)版本,適合於四個方向的Omni Binaural Microphone。Binaural錄音可以理解為聲場採集的上限,拋開人耳個性化的差異,達到的模擬效果要比HRTF等要好得多。這個錄音的輸出格式通常叫作Quad Binaural (QB)。

2.2 Ambisonic 錄音

Ambisonic 聲場錄音的優勢是更加靈活,通過錄音設備得到的Ambisonic訊號,可以直接做很多的後續處理。但是如果用Ambisonic訊號轉成Binaural,效果在某一點上會遜色於Binaural訊號。我們也曾做過一些比較,如果是用於VR 360度的聲場採集,與Omni Binaural錄音或者QB格式相比,Ambisonic錄音整體表現會比較平均,也就是最好方向比QB差,但也會比QB最差的方向要好一些。

有關聲場採集的演算法以及麥克風的設備,相對來說比較複雜。簡單地說,與其它設備的麥克風陣列使用類似,都有同樣的需求:核心參數有信噪比、一致性、靈敏度、頻響;選擇MEMS麥克風還是ECM麥克風。早期一般會選擇ECM,但ECM的一致性稍差,所以比較貴的麥克風出場時都會自帶匹配的校準參數。目前新的麥克風更多的是MEMS,一致性相對較好,可以達到,可以滿足很多需求。Ambisonic聲場採集得到的陣列訊號,在剛性球體上,可以近似的用剛性球體球面諧波函數,把感測器得到的訊號轉成球面諧波函數的一些係數來表示,然後針對係數進行後續的聲場的旋轉等操作。

3. 沉浸式音頻的製作,存儲,傳輸

那麼,有了沉浸式音頻聲場的採集,之後應該如何進行進行製作?目前主流的工具Pro Tools、Reaper、Nuendo都是在影視行業比較常用的。主流的Pro Tools目前已經全面支援Dolby Atmos,也可以支援一些高階的HOA;Reaper因為其功能強大,價格便宜,性價比高,被越來越多的音頻行業人士所喜愛。

以上提到的我們稱為音頻工作站,實際上大部分的工作還是通過插件來完成的,工作站完成主流的工作,靠插件來完成具體的如混響演算法或者VR相關的一些工作。常見的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。

圖為時代拓靈公司的插件,叫做Twirling Works,最初是為了VR製作來設計的。

多通道音頻壓縮一般是通過提取相位差、幅值差等一些Parametric Stereo,多通道通常選擇降維或者去相關的方式。

MPEG-H HOA編碼的核心是其中的HOA Decomposition部分,將有方向的,細節部分的訊號取出來。將無方向的,環境聲音訊號分離開。

HOA的優勢是存在分層的編碼機制,如果在頻寬精度要求不高,頻寬不夠的時候,可以傳輸輸入較少的低階訊號,如果頻寬足夠的話,則可以傳輸高階訊號。

對象音頻的編碼主要是來自杜比的科學家的貢獻,首先是兼容5.1開發了Joint object coding(JOC),可以將多個對象音頻下混到5.1聲道,通過傳統的5.1通道,生成的訊號可以被5.1解碼器很好的兼容播放。並且如果同時支援對象音頻,就可以將其還原成為支援Dolby Atmos的沉浸式音頻。Spatial coding可以理解為是在JOC之上的前處理,面向更多的對象,可以通過一些準則如:對象的重要性,能量等對多個對象做聚類。

4. 渲染與播放

渲染與播放是非常關鍵的一個部分,渲染的方式通常叫做Panning,在三維空間中的渲染方式稱為Vector-based Amplitude Panning。

HOA的渲染相對更複雜一些,主要需要考慮的是如何將不同的HOA的資訊給到不同的喇叭。

以上是優化HOA decoding所使用的準則之一Max rE。

以上是Decoding的幾種不同方式,傳統的主要Sampling or projection decoding和Mode-matchingdecoding兩種;此外,還有一些新的進展,儘可能的使得渲染更均勻,最大程度保證音質不受損。

5. 行業現狀與相關應用

有關行業現狀,聲場採集部分一階Ambisonics(FOA,First-Order Ambisonics)已經很常見了,並且同時也出現很多高階Ambisonics (HOA,Higher-Order Ambisonics) 的採集。VR對於Ambisonic存在很強大的助推,Google和Facebook也在提供支援。得益於一些主流公司的支援,大家對此技術有了更多的認知和重視。

專業領域則主要是Object Audio和HOA兩大趨勢,接下來隨著5G、AR、VR的發展沉浸式音頻技術的未來是非常可期的。

關於沉浸式音頻技術的相關應用,毫無疑問影視娛樂,VR是最主要的應用,例如各家影院的杜比全景聲可以說是非常常見的。此外,在我認為會議其實是非很好的應用點,大家都希望能有一個很好的沉浸式的會議體驗。另外,還有聲場採集以及在其它聲學領域的應用,例如聲學事件監測,定位等也逐漸開始出現一些應用。