新興的MPEG-5 EVC標準:應用、技術與結果

  • 2019 年 10 月 4 日
  • 筆記

摘要

三十多年以來,傳媒業的數字化帶來了新的服務、擴大了傳統服務的覆蓋範圍並且給世界各地的消費者帶來不斷改善的視聽體驗。數字媒體的分發與消費中最核心的技術問題之一就是壓縮,尤其是影片壓縮。近幾年來,行業里出現了多種不同的影片編碼標準和專用的編解碼器,並且新研製的編解碼器的壓縮性能也在不斷提高。但是有時候,壓縮效率並不是決定編解碼器是否適合某一場景的唯一因素。本文介紹的MPEG-5 EVC(Essential Video Coding)標準是由MPEG開發的,它採用了一種新的研製思路,旨在解決業務需求,包括專利許可和技術需求,以便在整個媒體行業中實現快又廣泛的部署。

介紹

開發一個新的標準通常要從分析需求入手:新標準要解決什麼問題?新標準的理想技術性能如何?新標準如何與該系統生態的其他部件如何相互作用?新標準的目標應用場景是什麼?

多年以來影片編碼的核心問題一直未變:在儘可能保持影片品質的前提下,儘可能地減少數據量。同時,我們通常只定義比特流格式和解碼器(而非編碼器),這使得解碼器具有跨行業兼容性,同時使得編碼過程更加靈活,更易滿足延遲和可用計算資源的需求。

儘管編碼器的輸入格式與解碼器的輸出格式(未壓縮的影片數據樣本)多年以來保持不變,但是不同代影片編碼標準的應用卻大不相同。例如,1993年研製成功的MPEG-1標準主要用於CD影片;1995年研製成功的MPEG-2標準主要用於DVD和數字廣播電視;2003年研製成功的MPEG-4 Advanced Video Coding (AVC/H.264)主要用於高清電視和基於IP的影片服務,例如OTT(Over The Top)服務;2013年完成的MPEG-H High Efficiency Video Codin(HEVC/H.265)主要用於4K和HDR/WCG影片。

自2018年4月以來,MPEG(ISO/IEC JTC 1/SC 29/WG 11)與VCEG(ITU-T SG 16/Q 6)共同致力於一個新項目:多功能影片編碼(Versatile Video Coding,VCC),預計將在提供沉浸式影片體驗的應用中部署,如虛擬現實流媒體、8K廣播和高動態範圍(HDR)影片。

從技術和標準的角度來看,我們仍可以將舊的影片標準用到新的應用程度上。例如我們可以將MPEG-1標準應用到4K影片中,儘管這麼做很可能沒有解碼器來支援這樣的應用並且沒有定義它的級別。然而上述系統的頻寬需求將會達到極限,這樣做的代價很大。但是如果我們該用最新的影片編碼標準,我們最大程度的減少分發編碼影片所需的資源,並儘可能地提高影片品質,這對服務提供商與消費者來說是雙贏的,只要我們的部署以及專利授權的成本是合理的。

HEVC標準

HEVC影片編碼標準是在MPEG和VCEG的聯合標準化項目中制定的,全行業的組織都參與了該項目。在HEVC2010年至2013年的第一階段中,每年舉行四次會議,有近500人參與,收到1000多份文章,至少有50家公司參與了其中。如此廣泛的參與帶來了多重優勢:可以考慮審視更多的創新技術、可以調用更多資源去審查標準的不同部分,更為重要是的是,會有很多組織機構支援這一標準,從而有利於該標準在不同應用中的部署。但是如此廣泛的參與也帶來一個潛在的不利因素:當標準的最終版本確定之後,該標準是包含有來自於不同專利持有者的專利。任何想要使用或部署該標準的人或組織必須保證他們有正當許可。早期的MPEG影片編碼標準提供了一個單一的專利許可,涵蓋了標準中的絕大多數技術,並且公開了許可條款。HEVC的情況則有所不同,它有三個不同的專利池,並且還有很多專利持有者不通過專利池來提供專利許可。圖1顯示了一些聲明擁有HEVC專利的組織或公司。

圖1 已宣布擁有HEVC必要專利的組織

對於HEVC專利許可情況能在多大程度上影響該標準的實施與部署,當前存在著不同的聲音。但是一般認為,較早且統一的專利許可聲明和更高的透明度為HEVC提供了更為廣泛的市場採用機會。但同時也應該清楚地看到,在某些應用領域,例如互聯網影片流中,HEVC的適用範圍很窄。Encoding.com網站在其《2019年全球媒體格式報告》中指出,自從2003年起,只有12%的編碼使用HEVC,仍有82%使用AVC標準。

專用影片編解碼器

本文只研究影片編碼標準,即由國際標準開發組織(Standards Developing Organizations,SDOs),他們具有FRAND(Fair,Reasonable and Non-Discriminatory)承諾、規範文本,參考軟體以及相關維護。

然而,市場上也有一些其他的影片編解碼器,如Divideon的XVC編解碼器、RealNetworks的RealMediaHD編解碼器、V-Nova的Perseus編解碼器和開放媒體聯盟(AOM)的AV1編解碼器。總的來說,至於專用編解碼器能在多大程度上滿足不同行業的需求,並為依賴傳統標準的編解碼器帶來多大吸引力,仍有待觀察。

背景

傳統情況下,在MPEG中開發影片編碼標準的過程很簡單。MPEG-5標準採用了能帶來最好的壓縮效率的技術,只要該標準能夠在軟硬體中很好地實現與運行,除了出資人對於FRAND的承諾要求之外,無需考慮其他技術問題。在商業運營方面,尤其是專利許可方面,該標準是在獨立於MPEG外部進行處理的。

為了解決既複雜又不明確的MPEG標準許可問題,2018年就開始了相關問題的討論,並嘗試用用一種不用於以前的標準化制定過程,總結如下:

1. 選擇20年之前的技術或者有免版稅聲明的技術來定義該標準

2. 在基本工具集上定義了一些其他工具,每個工具在壓縮性能方面都有顯著的改進。

3. 每一個附加的工具都是隔離的,這樣它就可以獨立於其他工具進行開關控制。

4. 鼓勵技術贊助者提交與專利許可或出版有關的自願聲明。

5. 定義了分析機制,以便允許不同模式可以包含有不同的工具。

徵集意見

在對徵集意見書評估之後,MPEG-5 EVC項目於2019年1月正式開始,並根據評估結果確定了工作草案與測試模型。三星、華為、高通和Divideon都響應了徵集建議的要求,並積极參与標準制定工作。本文的四位作者是MPEG-5 EVC標準草案的編輯。

應用

基於以上定義的過程,結合吸引人的技術和商業特性,MPEG-5 EVC有望廣泛應用於各種應用中。該項目的需求文件特彆強調了實時編碼在實時OTT流媒體和離線編碼在流影片點播中的重要性,但其他應用,如影片會議和傳統廣播,也有望得到MPEG-5 EVC的支援。該標準將支援(至少)高達8K的影片解析度和每秒至少120幀的高幀速率(HFR)。為了在今天和將來的顯示器上提供儘可能高的品質,標準將支援高動態範圍(HDR)和寬色域(WCG),精度為10位。

技術

MPEG-5標準草案基於三星、華為和高通對於徵集建議的響應,並參考了Divideon的圖片管理和高級語法方面的技術。MPEG-5 EVC的核心是基本模式,它只包含20年前的或者是已經免初版權稅的技術。多餘的工具包含在主模式當中。圖2顯示了MPEG-5 EVC標準的簡化概述,其中包括20個附加的編碼或HLS功能,每個功能都可以單獨禁用。

圖2 MPEG-5 EVC標準概述

本節中的圖與說明是基於2019年7月的MPEG-5 EVC的項目狀態,在最終版本確定之前,仍可以添加、移除或修改工具。

高級句法

MPEG-5 EVC比特流由許多網路抽象層(Network Abstraction Layer, NAL)單元組成,這些單元具有一個小的NAL單元報頭,該報頭指示NAL單元的一些屬性,例如數據類型和時間ID。序列參數集(Sequence Parameter Set, SPS)包含應用於整個編碼影片序列(Coded Video Sequence, SCV)的參數,圖片參數集(Picture Parameter Set, PPS)包含應用於CVS的一個或多個圖片的數據,自適應參數集(Adaptation Parameter Set, APS)包含應用於CVS的一個或多個圖片的一個或多個部分的數據。在基本模式中,圖片標識符和參考圖片結構直接從SPS和NAL單元報頭中的資訊導出,而主模式提供了圖片標識符、圖片順序計數信令(Picture Order Count Signalling, POCs)和參考圖片列表(Reference Picture Lists, RPL)中的靈活性,在圖片級別發出訊號。

熵解碼

MPEG-5 EVC使用與JPEG相同的二進位算術編碼方案。該方案包括二值化步驟和由查找表定義的概率更新。在主模式中,基於相鄰塊的語法元素的派生過程,使得環境建模與初始化過程更為有效。

編碼結構

在MPEG-5 EVC中,塊結構的核心是一種傳統的四叉樹編碼結構,它將編碼後的影像分割成最多為128x128luma樣本的塊,這些塊可以遞歸地分割成越來越小的正方形塊。主模式添加了兩個高級編碼結構工具:允許非方編碼單元的二元三叉樹(Binary Ternary Tree,BTT)和將分割單元的處理順序從傳統的左掃描順序處理更改為右掃描順序處理的分割單元編碼順序(Split Unit Coding Order,SUCO)。在主模式中,可以將圖片分割為矩形小塊,這些小塊可以並行地獨立編碼。

幀內預測

MPEG-5 EVC中的幀內預測是在分割結構中的編碼單元的相鄰樣本中執行的。對於基本模式,所有編碼單元均為正方形,存在五種不同的預測模式;DC(鄰域的平均值)、水平、垂直和兩個不同的對角線方向。在主模式中,預測可應用於任何矩形編碼單元,並且在所謂的增強幀內預測方向(Enhanced Intra Prediction Directions,EIPD)中有28個附加方向模式可用。在主模式中,也可以使用塊內複製(Intra Block Copy,IBC)來參考同一圖片中先前編碼的樣本塊。

幀間預測

MPEG-5 EVC幀間預測的基礎是採用四分之一取樣解析度的插值濾波器進行運動補償。在基本模式中,使用三個空間相鄰運動矢量中的一個和一個時間並置運動矢量作為預測器來發送運動矢量訊號。運動矢量差可以相對於所選擇的預測器被發送訊號,但是對於沒有運動矢量差被發送訊號並且塊中沒有剩餘數據的情況,存在稱為跳過模式的特定模式。主模式包括六個用於提供改進的內部預測的附加工具。利用高級運動內插和信令(dvanced Motion Interpolation and Signalling, AMIS),可以在概念上合併相鄰塊以指示它們使用相同的運動,但也可以使用更高級的方案來創建與基本模式中的預測器相當的候選預測器列表。運動矢量差分合併(Merge with Motion Vector Difference, MMVD)工具使用與相鄰塊的概念合併類似的過程,但還允許使用包含起點、運動幅度和運動方向的表達式來發送運動矢量的訊號。

使用高級運動矢量預測(Advanced Motion Vector Prediction, ADMVP),可以從同一圖片中的相鄰塊以及參考圖片中的並置塊導出更多的塊的候選運動矢量預測。自適應運動矢量解析度(Adaptive Motion Vector Resolution, AMVR)工具提供了一種方法,可以將運動矢量的精度從四分之一取樣降低到半取樣、全取樣、雙取樣或四取樣,這可以提供一種效率優勢,例如在發送大的運動矢量差異時。主模式還包括解碼器側運動矢量細化(Decoder-side Motion Vector Refinement,DMVR),它使用雙邊模板匹配過程來細化雙向模式下的運動矢量。

反量化與變換

當使用幀內預測或幀間預測來預測數據塊時,通常將剩餘數據添加到預測塊。剩餘數據通過應用逆量化處理和逆變換來獲取,通常在解碼器中將這些過程稱為「逆」。MPEG-5 EVC包括整數離散餘弦變換(DCT2)和標量量化。對於主模式,改進的量化和變換(Improved Quantization and Transform, IQT)使用不同的映射和剪裁函數進行量化以提供更好的性能。由於轉換係數在左上角的絕對值通常較高,因此塊的剩餘數據從右下角開始以逆之字形掃描順序進行掃描。主模式中的高級係數編碼(Advanced Coefficient Coding, ADCC)能夠更有效地發送係數值訊號,例如通過最後一個非零係數指示。在主模式中,也可以使用自適應變換選擇(ATS)來應用DST7或DCT8的整數版本,而不僅僅是DCT2。

環路內濾波器

MPEG-5 EVC的基本模式使用H.263附件J中定義的去塊濾波器。在主模式中,與基本模式中的解塊濾波器相比,可以使用高級解塊濾波器(Advanced Deblocking Filter, ADDB),它可以進一步減少偽影。主模式還定義了兩個附加的環路內濾波器,它們可用於在輸出和/或用於幀間預測之前提高解碼圖片的品質。沃爾什-阿達瑪轉換域濾波器(Hadamard Transform Domain Filter, HTDF)在解塊前應用於luma樣本,並使用掃描過程確定4個相鄰樣本用於濾波。自適應環路濾波器(Adaptive Loop Filter, ALF)允許為luma組件發送多達25個不同濾波器的訊號,並且可以通過對每個4×4塊的分類過程來選擇最佳濾波器。ALF濾波器的濾波器參數在APS數據結構中發出訊號。

解碼圖片緩衝區

在以前的技術中,解碼的圖片可以存儲在解碼的圖片緩衝器(Decoded Picture Buffer, DPB)中,以用於預測按照解碼順序在它們之後的圖片。在基本模式中,DPB的管理(即添加和刪除參考圖片)由SPS中的資訊控制。對於主模式,如果使用RPL方案,DPB管理可以由在圖片級發出訊號的資訊來控制。

結果

目前正在開發的MPEG-5 EVC使用了一組特定的測試條件和測試序列,這些條件稱為通用測試條件,它們提供了一種監測項目進度和相互比較不同技術方案的方法。將HEVC(HM)和AVC(JM)的參考實現用作CTC中的參考標準,以指示MPEG-5 EVC測試模型如何與現有編解碼器進行比較。其他影片編碼標準和專有編解碼器也可以使用相同的測試條件進行比較。

表1 MPEG-5 EVC主模式(ETM)與HEVC(HM16.16)的對比結果

Y

U

V

EncT

DecT

Tango2

-26.62%

-19.60%

-23.47%

394%

249%

FoodMarket4

-26.67%

-17.52%

-18.06%

316%

242%

CatRobot1

-33.40%

-30.32%

-26.46%

461%

238%

DaylightRoad2

-33.40%

-22.56%

-24.55%

485%

227%

ParkRunning3

-26.08%

-16.28%

-15.19%

685%

222%

Marketplace

-22.18%

-10.19%

-11.66%

509%

208%

RitualDance

-21.30%

-17.33%

-18.78%

481%

198%

Cactus

-24.77%

-20.12%

-16.78%

599%

203%

BasketballDrive

-24.48%

-27.01%

-28.24%

575%

219%

BQTerrace

-20.67%

-16.97%

2.41%

570%

200%

Overall

-25.96%

-19.79%

-18.08%

497%

220%

表2 MPEG-5 EVC基本模式(ETM)與AVC(JM19)的對比結果

Y

U

V

EncT

DecT

Tango2

-48.51%

-31.03%

-37.31%

42%

102%

FoodMarket4

-52.00%

-38.61%

-41.42%

47%

101%

CatRobot1

-31.95%

-34.52%

-41.74%

50%

107%

DaylightRoad2

-38.74%

-31.08%

-43.00%

41%

98%

ParkRunning3

-17.77%

-32.10%

-26.92%

40%

101%

Marketplace

-30.99%

-25.57%

-27.87%

34%

97%

RitualDance

-23.89%

-20.75%

-20.66%

37%

105%

Cactus

-22.70%

-24.91%

-29.72%

40%

114%

BasketballDrive

-20.90%

-26.44%

-31.36%

37%

103%

BQTerrace

-25.35%

-42.53%

-26.33%

39%

97%

Overall

-31.28%

-30.75%

-32.63%

40%

102%

表1和表2是對4K超高清和1080p高清測試序列比較的結果。報告里的數字是使用4個速率點和PSNR作為度量標準的luma(y)和chroma(u和v)的比特率減少值,EncT和DecT分別代表相對編碼時間和相對解碼時間。

從表1和表2可以看出,MPEG-5 EVC主模式比HEVC降低了26%的比特率,而MPEG-5 EVC的基本模式AVC降低了31%的比特率。對於計算複雜度,主模式下的MPEG-5 EVC相對於HEVC編碼器和解碼器有5倍和2倍的運算時間;而基本模式下,相對於AVC具有類似的解碼時間缺減少了60%的編碼時間。我們也應注意到,我們目前所用的EVC軟體仍在開發中,我們有理由相信改進過之後的EVC軟體可以在編解碼速度上有所提高。

MPEG-5 EVC路線圖

MPEG開發的標準遵循國際標準化組織定義的過程發布順序,包括幾個階段。從一個階段轉移到下一個階段需要一定數量的國家機構的批准,國家機構可以提供意見並將回饋意見發送回制定標準的集團。對於MPEG-5 EVC標準,計劃在2019年10月完成標準中的技術要素定稿,並在2020年4月完成最終國際標準草案。

結論

本文介紹了MPEG中正在開發的新的影片編碼標準MPEG-5 EVC。MPEG-5 EVC標準是使用一種新的過程開發的,該過程更重視標準中包含的技術所有權,並為編解碼器的許可提供更好的基礎。該標準草案基於三星、華為、高通和Dividen提交的技術,包括一個僅包含免版稅條款下可用技術的基本模式。主模式中包含的所有技術組件都可以單獨關閉,從而使編解碼器的用戶能夠避免使用他們無法授權的技術。結果表明,MPEG-5 EVC標準可以達到與HEVC標準相同的影片品質。在一組超高清和高清影片序列中,平均比特率降低26%。結合許可方面, MPEG-5 EVC具有廣泛採用的良好地位,特別是對於仍然基於AVC標準的應用和服務。MPEG-5 EVC標準預計將在2020年定稿並發布。

參考資料

1. ISO/IEC 11172-2: Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s: Video

2. ISO/IEC 13818-2 / ITU-T H.262: Generic coding of moving pictures and associated audio information: Video

3. ISO/IEC 14496-10 / ITU-T H.264: Advanced Video Coding for generic audiovisual services

4. ISO/IEC 23008-2 / ITU-T H.265: High Efficiency Video Coding

5. Encoding.com, Global media formats report https://1yy04i3k9fyt3vqjsf2mv610yvmwpengine.netdna-ssl.com/files/2019-Global-Media-Formats-Report.pdf

6. The xvc video codec by Divideon https://xvc.io/

7. RealMedia HD by RealNetworks https://www.realnetworks.com/realmediaHD

8. Perseus by V-Nova https://www.v-nova.com/perseus-video-compressiontechnology/

9. AV1 by Alliance for Open Media https://aomedia.org/

10. Requirements for a new Video Coding Standard

https://mpeg.chiariglione.org/standards/exploration/future-videocoding/requirements-a-new-video-coding-standard

11. ITU-T H.263: Video coding for low bit rate communication, Annex J