軟硬協同:基於倚天的視頻雲編碼性能升級

算力時代,靠吃「硬件紅利」便能搞定新應用場景的「甜蜜期」已經過去。

人類社會的每一次科技躍遷,其本質都是計算力的突破與演進。

算盤撥出農耕文明的繁榮,機械計算機催生出第一次工業革命的裊裊蒸汽,而雲計算的發展讓萬物互聯成為真正可能。

在數據爆髮式增長以及算法日益精進的大背景下,屬於「算力」的時代儼然到來。

以音視頻行業為例,趨近飽和的場景滲透率、用戶對體驗的極致追求、多元化的場景及技術需求,為底層算力和視頻編碼能力帶來更大的挑戰。

然而,在算力需求暴漲的同時,摩爾定律的演進速度卻在放緩,「硬件紅利」已然見底。

對於整個視頻雲賽道的算力困局,不僅需要上層軟件系統的優化,也需要在底層硬件基礎設施上,尋求破局之法。

01風口之下的算力困境

我們已經邁入社會視頻化時代。視頻無處不在,由此產生的流量已呈井噴式增長。

據《2022年中國網絡視聽發展研究報告》披露,截至2021年12月,我國網絡視頻(含短視頻)用戶規模達9.75億,較2020年12 月增長4794萬,佔網民整體的94.5%。

網絡視聽正成為大眾的娛樂剛需,視頻正在成為各行業連接客戶最廣泛的載體,也成為各巨頭搶佔風口的關鍵點。

而在5G時代,視頻流量將進一步增長。

視頻流量激增的另一大原因,是用戶對視頻體驗的「不將就」。

在視頻規模持續增長的同時,隨着網絡和終端硬件設備的迭代,用戶對視頻清晰度體驗的追求持續提升;視頻超高清化也是繼視頻數字化之後的新一輪重大技術革新。

移動互聯網終端觀看分辨率從最開始的360P,480P,快速提升到720P,1080P以及近年出現的4K/8K超高清視頻。

當前,國家也連續出台超高清產業支持措施並加速應用,如:5G+8K超高清技術在冬奧會和春晚實現商用;體育直播開始進入到4K HDR直播時代。

除了高分辨率,沉浸式視頻體驗還追求高幀率和寬色域,而每一次分辨率的提升,幀率的提升,色域增加帶來的都是視頻信息量的成倍增加。

因此,需要技術解決方案能更快應對更高清晰度、更低時延的視頻編解碼和轉碼,滿足高清、高幀率、寬色域視頻所帶來的不斷「擴容」的音視頻數據流。

02難以調和的「視頻編解碼」矛盾

由於Raw(原始圖像編碼數據)視頻數據是非常大的,如果不進行編碼和壓縮,不論是視頻的存儲還是傳輸,都將帶來很大的麻煩,視頻編碼技術便是由此而來。

視頻編解碼起源於廣播電視,從1951年第一部數字電視和廣播誕生起,廣播電視在很長一段時間裏是視頻編解碼技術變革的核心推動力。

而到互聯網時代,隨着互聯網的高速發展,使用互聯網的用戶和視頻流量出現井噴式增長,互聯網成為視頻編碼的主戰場。

為了應對視頻流量的不斷增長,視頻標準組織一直在推動視頻編碼技術的持續迭代。

從MPEG2開始,視頻編碼標準壓縮率大約每10年提升50%,以2021年推出的h.266為例:相對於h.265壓縮率提升50%,但其編碼計算成本提升15倍。

然而,用戶對視頻極致體驗的追求與視頻編碼的演進其實存在着巨大的矛盾。

❖ 編碼標準升級速度遠慢於視頻信息量膨脹的速度:「十年磨一劍」的視頻編解碼技術(10年50%壓縮率的提升)已經遠遠慢於視頻化和體驗升級帶來的流量增長(過去3年音視頻流量已高達68.9%的增速),而未來帶寬壓力會越來越大。

❖ 新編碼標準壓縮率的提升遠低於視頻分辨率提升的速度:每一代編碼標準的演進,都是在不斷探索極限壓縮率。新一代的編碼標準對比上一代的標準通常有50%的壓縮率提升。然而如果視頻分辨率每提升一檔,比如360P到720P,則會使信息量增加4倍。

❖ 新編碼標準複雜度的增加遠高於CPU處理能力的增加:新一代的編碼標準對比上一代的標準大多增加10倍以上的複雜度,遠高於CPU處理能力的增強,而視頻編碼的高複雜度導致編碼技術難以普惠,尤其在實時場景。

隨着AR,VR時代的到來,4K-8K高分辨率,60-120FPS高幀率,10-12bit寬色域,讓視頻的信息量更是成倍增加;加之低延時意味着對編碼速度有更高的要求;而CPU芯片處理能力也不再遵循摩爾定律快速增長,視頻體驗-帶寬-計算成本-編碼速度的矛和盾的衝突會越來越嚴重。

03軟硬協同,錨定性能升級

視頻編碼與視頻處理為計算密集型場景,面對視頻雲賽道的算力困局,如何讓高壓縮率的編碼算法,更加普惠?

解法是:軟硬協同+深度自研編碼內核。

在該方向,我們一直在持續優化、迭代,而倚天ECS的出現帶來更好的答案。

2021年雲棲大會,阿里平頭哥發佈首顆為雲而生的CPU芯片倚天710,該芯片針對雲場景研發,同時兼顧了性能與易用性。

經過一年的業務驗證,倚天710已大規模部署並提供雲上服務,算力性價比提升超30%,單位算力功耗降低60%。

搭載倚天710的ECS自設計初就是一款雲原生服務器,憑藉其靈活、先進、彈性的雲原生芯片特性和優異的CPU算力,超低功耗,與視頻雲的轉碼服務特點強匹配,為視頻云云原生轉碼業務帶來更多可能。

基於倚天ECS,阿里雲視頻雲與平頭哥數據中心解決方案團隊聯合,對s264、s265編碼器進行深度優化。

最終實現:相對於C7,轉碼性能提升30%,在8K直播場景中提升達到33%,助力更普惠,更高清的轉碼服務。

04四維優化,釋放「軟硬結合」最大效能

基於阿里自研的倚天710芯片進行優化,通過深度重構視頻編碼數據結構、並行框架,重新調優快速算法策略,從軟件、彙編、硬件層面跨層深度優化,打造ARM友好的視頻編碼器的同時,塑造極致性能。

主要體現在以下四方面的核心優化:

計算密集型彙編優化

計算密集型函數通過彙編實現單指令多數據操作優化,除常規彙編指令優化外,基於倚天710的特點,在視頻編碼中充分利用可伸縮向量指令集,mmla類型高並髮指令的優勢,塑造更高的彙編加速比,總體性能提升40%;

例如:在ME搜索優化中,結合710 SVE寄存器預取特性,設計內存預取算法以及寄存器訪問流程優化,大幅降低內存訪問次數,如一次六邊形搜索,可以減少3.8倍行訪問次數。

計算函數並行優化

在計算密集型函數彙編優化基礎上,充分對有性能增益但原本串行處理數據的算法(如SDH)進行並行處理優化,並實現基於ARM平台的彙編版本代碼,在壓縮性能基本一致的情況下函數速度性能提升約40%。

偏控制函數優化

根據倚天710芯片特性,我們重構了視頻編碼數據結構,並行框架,同時重新調優了快速算法策略,聯合提升總體性能,例如快速算法checkSkip,Earlyskip等,總體性能提升20%。

系統層優化

在算法優化的基礎上,針對視頻轉碼特點,結合倚天710平台和視頻雲特有場景下進行系統配置優化,將二者結合的能力發揮到最大。

目前倚天ECS已經在視頻雲點播上線,性能提升30%,壓縮率提升5%,同時阿里雲視頻雲同步探索AI輔助視頻編碼方向。

初步結果顯示:藉助倚天ECS的超強算力,倚天ECS在Saliencymap推理上成本低於G6ni 50%以上,在窄帶高清的普惠化方面展現出了巨大空間。

未來,我們將基於自研處理器展開預研,深度結合視頻雲業務,沉澱視頻雲技術能力,從架構、指令、訪存等方面優化設計。

同時,繼續與平頭哥開展深度合作,共建軟硬件結合自研芯片競爭力,算法、加速庫、驅動、固件一體化設計,不斷探索創新音視頻技術,加強其在更多視頻應用、更多終端設備上的普適性。

將更多的技術普惠到廣大消費者,賦能千行百業的視頻化需求,催生新興產品形態和業務模式,為客戶提供更快、更省、更低功耗、更高清、更實時的編碼力,並為廣大觀眾帶來更極致的視聽體驗和更創新的互動玩法。

Tags: