音視頻前沿:新一代 AV1 視頻標準究竟是怎樣一種存在?

AV1是開放媒體聯盟Alliance for Open Media (AOM) 開發的第一代視頻編碼標準,自推出以來獲得了產業界巨大關注和支持。騰訊多媒體實驗室也加入進來和其他公司團隊一同積極推動AV1編碼器的優化和落地,為客戶提供高性能和高效率的雲端編碼服務。本文是對騰訊多媒體實驗室專家研究員趙欣老師在「雲加社區沙龍online」的分享整理,希望與大家一同交流。

點擊鏈接,查看完整直播回放

一、視頻編碼的發展歷程

視頻編碼領域國際上有 4 個主流的標準組織:

1. 動態圖像專家組(MPEG)

MPEG 組織隸屬 ISO 和 IEC,1988 年由 Hiroshi Yasuda(NTT) 和 Leonardo Chiariglione 創建,會員主要包括產業界,大學和研究機構。

2. 視頻編碼專家組(VCEG)

VCEG 隸屬國際電信聯盟(ITU),總部設置在瑞士日內瓦。會員包括產業界,1984 年創建,第一次會在日本東京舉辦。

3. 數字音視頻編解碼技術標準專家組(AVS)

AVS 是我國自己的標準組織。2002 年由國家原信息產業部科學技術司批准成立,會員由 92 家大學和公司組成,成員單位集中在中國。第一次會於 2002 年在北京舉辦,近幾年逐漸獲得國際領域的關注,已有國外企業加入。

4. 開放媒體聯盟(AOMedia)

AOMedia 於 2015 年成立,會員包括 44 家公司,其中董事會包括 14 家公司,相當一部分成員為美國灣區的互聯網公司,由多媒體實驗室牽頭,騰訊 2019 年以董事會成員身份加入AOMedia,成為董事會成員中迄今為止唯一的一家中國企業。這也是騰訊在國際視頻標準舞台上的里程碑之一。

標準組織推出的標準主要可以分為三部分,其中比較特殊的就是 ISO 和 IEC 旗下的 MPEG 和 ITU 旗下的 VCEG,它們之間有着千絲萬縷的聯繫。

這兩個標準組織都成立於上世紀的八十年代,最初分別推出了各自的一套標準,隨着業界對於統一標準的呼聲越來越高,便聯合推出了 MPEG-2及H.264/AVC 等標準,這也推進了流媒體行業的發展。

AVS 目前推出了三個標準,分別是 AVS1、AVS2 和 AVS3,這三個都是我國自主知識產權的標準,也是我國在視頻標準領域的一個驕傲。

第三個標準是 AOMedia,因為比較年輕,目前推出的唯一一個標準是 AV1。AV1 的前身是 VP-8 和 VP-9,這兩個標準是 Google 公司主要應用在流媒體業務上的私有標準。

關於VVC 的標準制定,騰訊於 2017 年底才開始投入,經過兩年多的努力,多媒體實驗室多人擔任 VVC 標準聯合主編,VVC 參考軟件聯席主席, 多項核心實驗召集人、多個專家小組主席等職位。騰訊在 VVC 標準的制定過程中,扮演了相當重要的角色。

AOMedia 則是由騰訊多媒體實驗室從 2019 年開始推動,並於同年 10 月騰訊以董事會成員身份加入。

下圖是國際主流視頻標準專利池的分佈情況。以 HEVC 為例,總共有超過 17000 件專利。專利池主要有三個,分別是 HEVCAdvance、MPEG-LA 和 VELOS。

 

在 HEVC 階段,專利池的局面是相當龐大並且複雜的。還有一些公司雖然投入了,但是立場比較微妙,遊走在三個專利池之外。因為向三個專利池繳納專利費用是非常昂貴的,這帶來了一個問題,就是流媒體產品出海會面臨一些風險。 

正是因為這種複雜的局面,導致了 AOMedia 的誕生。AOMedia 的主要目標就是開發免專利費的視頻編碼標準,所有加入 AOMedia 的企業都可以免費使用 AOMedia 旗下的標準。 

二、新一代 AV1 視頻標準

1. AV1 編碼技術

首先我們來介紹一下 AV1 的編碼技術。AV1 是 2018 年定稿的新一代視頻壓縮標準,它採用了所謂的混合編碼技術框架。 

 

AV1 的整個編碼系統是由很多的模塊混合在一起構成的,每個模塊是從不同的角度和手段,對圖像不同方面的數據冗餘度進行去壓縮。所以不同的模塊聯合在一起,相輔相成,實現比較高的性能,這就是混合編碼技術框架。

混合編碼技術框架所採用的的基本技術流程,就是比如說這是一個輸入的圖像,它會先把這個圖像以塊為單位劃分成多個塊,然後以塊為單位進行項目預測,預測完之後再進行變換,變換之後再進行量化和熵編碼,形成壓縮的數據。過去幾十年來編解碼的技術框架都是按照混合編碼技術框架來實現的。

(1)塊劃分 

AV1 編碼的塊劃分技術,就是把圖像劃分成多個矩形塊,然後以塊為單位去解碼圖像。在 AV1 中圖像會劃分成 128×128 的單元,也就是最大編碼單元,簡稱 LCU。LCU 可以進一步的劃為四等份(SPLIT)或者二等份(HORZ,VERT)。四等份的子塊可以進一步遞歸劃分,並且每個子塊可以按照最多九種劃分方式進一步劃分為更小的單元。 

需要這麼多模式的原因,是因為圖像的內容本身就是複雜多樣的,我們為了針對複雜多樣的圖像進行最有效的編碼,就需要對圖像進行同步的劃分。

通常一個物體有多個組成部分,通常需要把它劃分為多個部分,每個部分採用不同的預測模式,針對性的進行預測。

(2)幀內預測 

下面我們講一下預測的環節。所謂的幀內預測,就是去除圖像之間的空間冗餘,所謂的空間冗餘就是一個像素和它周圍的像素有很強的相關性。比如白牆的顏色都是單一的顏色,每個點的像素和其他像素的趨勢非常接近,這就會導致一個很強的數據冗餘。幀內預測就是利用一定的技術手段來去除這種空間上的數據冗餘。

主要的方式包括以下五種: 

  • 方向預測模式

  • 遞歸濾波模式

  • Paeth 預測算子

  • 交叉分量預測模式

  • DC 預測模式,平滑預測模式

方向預測就是假設圖像有方向性的紋理,沿方向進行預測就可以把圖像預測的比較好。

遞歸濾波模式是把圖像分成細分塊的單位,每個單位會和周圍像素行成一個濾波器,然後進行線性加權預測,這種模式下濾波的過程需要串行進行。

Paeth 預測算子是當圖像在局部呈現平面的一個假設。另外還有交叉分量預測模式,這種模式主要針對顏色圖像。顏色有三分量,每個分量之間具有很強的相關性。

此外還有 DC 預測模式和平滑預測模式。這兩種模式主要局勢針對平滑紋理的預測。

 

(3)幀間預測 

幀間預測是指不以圖像上的時間的冗餘。所謂時間冗餘是指視頻是由一系列的圖像順序播放完成的,所以構成了視頻。那麼為什麼順序播放可以構成視頻?因為在空間上他們屬於同一個產品、同一個內容,但是有一些運動上的差異,所以在數據上有非常強的相關性。

為了處理這種相關性,就會在 AV1 上引入仿射運動模型,模仿旋轉、縮放等比較複雜的模型。類似的還有重疊塊運動模補償、混合預測模式等。

(4) 變換

擴展的變換類型包括:DCT、ADST、IDT、Flip-ADST 這幾種。AV1 最多支持 16 種行列變換組合。

(5) 熵編碼 

熵編碼包含的主要新興技術是多符號(Multi-Symbol)上下文自適應算術編碼引擎,相比二值算術編碼引擎,單周期可提升熵編碼吞吐量。

(6)環內濾波

環內濾波包含去塊效應濾波、約束方向增強濾波和環路修復濾波。環路修復濾波包含維納濾波和自導向投影濾波。

(7) 調色板模式

調色板模式是指針對視頻圖像的屏幕內容,亮度/色度取值稀疏,把圖像進行索引編碼圖形塊。

(8) 幀內塊匹配

騰訊的 LOGO(Tencent) 中包含兩個 n 和兩個 e,圖像比較複雜,如果把圖像 n 編碼完之後,增加一個矢量就可以預測另一個 n,效果會獲得提升。

 

2. AV1 編碼應用場景 

AV1 的一個重要應用場景就是流媒體。開放媒體聯盟中有很多流媒體公司,除騰訊以外還包括 Google、Youtube、Netflix、Hulu 還有愛奇藝等公司。Youtube 上目前高清視頻上線使用的就是 AV1 和 VP9 兩種編碼格式的組合,今年已經有採用 AV1 編碼的 8K 視頻上線。Netflix 自 2020 年 2 月起也支持 Android 上的 AV1 流媒體播放。

騰訊多媒體實驗室積極研發AV1編解碼的商業應用技術產品。去年騰訊視頻雲合作多媒體實驗室推出AV1直播與點播服務,騰訊視頻雲成為國內首家直播 + 點播同時支持 AV1 視頻處理業務的公有雲廠商。此外多媒體實驗室聯合騰訊其他編解碼團隊一起推動AV1編解碼器在不同業務中的商業化落地。實驗室正在與騰訊視頻進行合作推廣AV1在產品業務中的應用。

在雲轉碼方面,AWS Elemental MediaConvert 在 2020 年 3 月宣布支持 AV1 編碼格式。

三、AV1 標準與雲端編碼

 

在雲端編碼方面,AV1 有如下幾個優勢:

  • AV1的開源社區提供豐富的編碼器配置應對不同的業務需求,例如實時檔/非實時

  • 支持時域可伸縮性(Temporal Scalability)

  • 支持幀級超分辨率編碼(SpatialScalability)

  • 免專利版權費,支持產品出海

在多媒體實驗方面,騰訊多媒體實驗室和騰訊雲、騰訊視頻展開合作。騰訊多媒體實驗室和騰訊雲正積極推進視頻 AV1 標準的商業應用。由多媒體實驗室推動,騰訊以董事會成員加入即將成立的 SVT Foundation,助力開源社區 AV1 軟件編碼。

下面我們簡單介紹一下下一代視頻編碼標準。 

首先是 Versatile Video Coding 標準,是由 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29/WG 11(MPEG) 聯合工作組 JVET 推出,2018 年 4 月份於美國聖迭戈(San Diego)會議正式啟動,2020 年 7 月標準文檔定稿。

相比較上一代 HEVC 標準,達到 35% 的碼率節省(相同 PSNR 質量前提下),參考軟件編碼時間 10 倍,解碼時間 2 倍。

騰訊多媒體實驗室在 VVC 歷時兩年多的標準化歷程中,獲得近百項技術提案採納,填補了騰訊 在國際視頻標準化領域的空白。騰訊多媒體實驗室多人在 VVC 標準化過程中擔任重要職位,包括標準聯合主編,參考軟件聯席 主席,多個核心實驗負責人,多個專家小組主席。

除了 VVC,還有 AOMedia Video 2 標準。

AOMedia 於 2019 年開始籌備下一代標準 AV2,下一代AV2標準的參考軟件平台預計近期將推出。騰訊多媒體實驗室和 Google 聯合組織技術討論,成立編碼技術孵化組(Incubator Group) ,目前騰訊多媒體實驗室初步已推出三項編碼技術,相關工作發表在 ICIP 2020。

四、Q&A

 

Q:為什麼會有這麼多的編碼標準? 

A:這個和視頻編碼發展的歷程有關。最開始制定視頻編碼標準有兩個標準組織,分別是 MPEG 和 VCEG。它們分別開發自己的標準,這個對業界會產生一些困惑,所以後來兩個標準組織聯手集中資源和力量來開發一套共同的標準。

這套標準非常成功,在業界產生了非常巨大的影響力,蛋糕也越做越大,關注的公司越來越多,專利池的規模也是迅速增長。所謂分久必合、合久必分,後來為了應對這個複雜局面,促進技術的更新迭代,其它標準組織也應運而生,包括 AVS 和 AOMedia,主要是針對高昂的專利版權費產生的。

Q:AV1 會引導下一代視頻編碼的潮流么?

A:個人認為下一代視頻編碼會是一個百家爭鳴的狀態。我們知道國際視頻編碼標準已經發展了幾十年,有非常完善的標準制定流程,參與者也非常眾多,技術實力非常雄厚,所以他們對標準的打磨功力也是積累深厚的。

AOM 是一個相對年輕的標準組織,它的技術力量投入目前來說相對集中一些。目前來說,對於下一代的AV2標準的技術研發,騰訊和 Google 的投入相比其它AOM成員而言更大一些。雖然AOM比較年輕,但是通過騰訊多媒體實驗室的力量投入,多家公司聯合起來在技術上不斷打磨,希望能夠下一代AV2標準的技術研發上作出更大突破。 

我覺得AOM最大的優勢是免專利版權費。如果想用複雜度更高的可以考慮國際組織標準,各取所需。我也希望未來各個標準組織可以進行一定的融合,求同存異,集中力量造福整個產業。

Q:免專利版權費是永久的么?

A:開放媒體聯盟創立之初,目標就是專利版權費,但這其實是不容易的,會遇到一些挑戰。我們了解到其他非AOM會員公司也宣稱持有這樣的標準的必要專利。 

在開放媒體聯盟旗下的公司對業界的影響力是巨大的,免專利版權費是我們的一個宗旨,一個根本。

Q:AV1 相比其他有哪些優勢?

A:主要是性能上的優勢。AV1 和 HEVC、VP9 屬於不同代的標準,據我了解 AV1 與上一代標準相比有 20% 多的提升,這在帶寬上會有很大的一個節省。另外,對於新興的視頻業務,比如 8K 視頻,AV1 的性能優勢將更為突出。

Q:專利池的問題會長期存在么?

A:這是一個困惑產業界很久的問題,並且不容易解決,所以才會有開放媒體聯盟的誕生。目前國際標準組織有所謂的組織來解決專利池的問題。目前我還沒有看到完善的解決方案,但大家已經意識到這個問題的嚴重性,積極的推動解決方案。希望今後在專利池的問題解決同事,產業界可以有效地利用新技術。

Q:AV1 軟件效率太低,後續能有多大優化空間?是否只能期待硬件編碼改善這個問題? 

A:軟件編碼效率我理解的是速度這種功耗上的效率,其實它的編碼性能還是相當可觀的。編碼性能的優化空間應該是沒有止境的,在前兩年,編碼器的優化迭代會比較快,但這是一個持續的事情。騰訊多媒體實驗在這塊也有很大的投入,希望能夠推動AV1軟件編碼器的發展和廣泛部署。另外,近期開放媒體聯盟內部也是持續的有好消息,有非常顯著的性能提高。

Q:會有更多的硬件廠商支持么?

A:我理解是會有的,而且是強力的支持。據我了解,在硬件解碼方面聯發科、三星、LG 都已經推出了相應的硬件解碼。在編碼當中,是有更大難度挑戰的,在硬件編碼器上,我們預期在今年年底或者未來的2-4年內會有更多硬件增長的支持。 

Q:騰訊多媒體實驗室是怎樣一個存在? 

A:騰訊多媒體實驗室,專註於多媒體技術及相關領域的前沿技術探索、研發、應用和落地。研究領域及產品研發方向包含音視頻編解碼、網絡傳輸和實時通信,基於信號處理和深度學習的多媒體內容處理、分析、理解和質量評估,以及沉浸式媒體(VR、AR、點雲等)系統設計和端到端解決方案。實驗室持續為多項業務輸出核心技術和工程實現,涵蓋辦公、教育、文化旅遊、電競、泛娛樂等多個領域,服務千萬級DAU,並通過騰訊雲輸出通用解決方案及產品。實驗室同時負責國際國內行業標準制定,包含多媒體數據壓縮,網絡傳輸協議,多媒體系統,5G和AI等。

騰訊多媒體實驗室擁有500餘件多媒體及相關領域全球專利(含專利申請),其中近200項專利被多媒體數據壓縮、系統和網絡傳輸協議等國際標準採納。多媒體實驗室代表公司獲得多項世界組織席位,擔任包括國際8K協會董事,開放媒體聯盟(AOM)董事,DASH論壇董事長等職務。 

Q:目前都是靠軟解AV1 么?

A:目前硬件解碼器已經有推出,包括聯發科的天璣 1000,還有三星和 LG 推出的 8K 電視都是內嵌了 AV1 的硬件解碼器。

Q:AV1 除了直播、點播等,還有哪些應用場景?比如醫療影像可以應用嗎? 

A:醫療影像因為有其特定的需求,比如需要圖像的失真非常低,還有實時的操作等,如果圖像出現瑕疵會對醫療診斷產生干擾,這是必須避免的。

在此之外,視頻應用的需求在開放媒體聯盟組織成員構成上也有一定程度的體現,目前還沒有看到有醫療影像公司加入這個組織。從技術本身來說,AV1運用在醫療影像是完全沒有問題的,AV1 是支持非常高質量的圖像和視頻編碼。除過醫療影像、直播、點播等,凡是涉及到視頻通信的應用場景,比如文化旅遊,教育等領域,以及VR全景視頻,8K視頻等新興應用場景AV1都有其用武之地,我們也希望AV1能夠廣泛應用在視頻通信的各個應用場景,助力整個多媒體行業的發展。 

這也是騰訊加入開放媒體聯盟的初衷,如果希望標準組織可以考慮到公司業務的具體需求,就可以加入這個標準,反饋一些業務上的需求,這樣標準的制定就可以更好地符合特定業務的需求。

作者簡介

趙欣,騰訊多媒體實驗室專家研究員。負責新一代視頻壓縮算法的研發工作及標準制定工作。自2017年加入騰訊以來,重點參與過新一代國際視頻壓縮標準H.266/VVC的制定工作,負責研發多項騰訊的專利技術並推動將其採納進入H.266/VVC標準,填補騰訊在國際視頻標準領域的空白。目前重點參與了騰訊AV1編碼器的開源協同項目和開源社區SVT編碼器的優化工作,並負責開放媒體聯盟(AOM)旗下的標準制定,包括下一代AV2標準的技術預研和標準籌備工作。

「雲加社區」公眾號,回復「PPT」獲取老師演講PPT~