LiveVideoStackCon2021 北京站專訪:從上雲到創新,視頻雲的新技術、新場景

伴隨着視頻技術的進步和標準的迭代,視頻產業從模擬進入到數字時代,完成了從電影電視到互聯網的媒介轉換,並且衍生出了超高清、3D、AR/VR 等多種創新形態。特別是在後疫情的當下,我們可以看到音視頻技術領域的諸多新變化,雲與端的協同互動、算法創新與工程應用的深度交合、場景與需求的滲透促進,在嚴峻的挑戰下,為各行各業帶來了新的場景與活力。

在即將舉辦的 LiveVideoStackCon 2021 北京站,來自阿里雲智能視頻雲的專家將與眾多行業夥伴,一同探索與探討視頻雲技術在雲上的創新探索。為此,我們採訪了阿里巴巴研究員 —— 葉琰,以及資深技術專家 —— 何亞明,與兩位專家圍繞編解碼技術及視頻雲的新場景應用展開了深入對話。

「視頻社會化」:視頻雲成為新的基礎設施

從 2006 年網絡視頻的興起,到現在邁入 「視頻社會化」 時代,5G、雲、AI 已成為社會的發展趨勢,視頻不再局限於電影、電視、廣告等傳統媒體領域,視頻會議、 互動視頻、電商直播等新型應用使產業邊界逐漸消融,視頻行業需求和技術不斷升級。隨着技術的發展和基礎設施的夯實,視頻將會成為新的交互方式和信息承載的形態。

image.png

(資料來源:艾瑞諮詢 ——2021 年中國視頻雲場景應用洞察白皮書)

對於競爭激烈、快速迭代的大視頻產業而言,視頻雲已經逐漸發展為一項關鍵的基礎設施。眾所周知,當下的視頻業務對算力、存儲、帶寬這些資源的消耗非常高,比如一場流行的直播演唱會,可能會有上百萬的人在觀看,這不僅需要有強大的端側實時視頻處理能力,還要依託大規模的 CDN 分髮網絡完成流暢的分發任務,甚至一些 AR/VR 的特殊視覺效果需要通過邊緣節點的計算才能得以呈現,所以僅僅把服務器搬到雲上已經遠遠不能滿足未來的場景需求,如何利用雲的優勢進行技術架構和業務的演進成為業界共同面臨的課題。

葉琰:推動下一代視頻標準落地,釋放行業生產力

image.png

葉琰是阿里巴巴研究員,阿里雲智能視頻雲視頻標準與實現負責人。她負責視頻雲在 ITU-T VCEG、ISO/IEC MPEG 、AVS 等國際和國家視頻標準組織的技術開發,涉及視頻編解碼、AI 視頻質量評估、VR/AR 等先進技術的研發工作。她參與了多項視頻編解碼與流媒體的國際標準制定工作,包括 H.266/VVC,H.265/HEVC,SHVC 等標準。她是 50 多篇學術論文的作者,130 多篇美國授權專利以及 230 多篇美國專利申請的發明人。她還是 IEEE 高級會員。她在中國科技大學獲得本科及碩士學位,在加州大學聖地亞哥分校獲得博士學位。

視頻離不開編解碼技術,編解碼離不開標準的引導。視頻標準一直是視頻行業發展的基礎設施,視頻標準覆蓋廣泛,從系統標準 MPEG CMAF 到編解碼標準 H.266/VVC,視頻標準的不斷更新迭代對視頻生產的效率提升、成本降低和新的體驗起到至關重要的作用,也關係著整個行業未來的走向。

葉琰作為阿里巴巴研究員、阿里雲視頻雲視頻標準與實現團隊的負責人,一直以來是國際視頻標準化工作的深度參與者和推動者,在葉琰看來 「視頻標準化組織是見證最前沿技術和把握最新行業脈搏的最佳場合之一,正是通過業界專家們開放的技術討論,同時充分傾聽市場的需求,才讓我們能一次次迭代出更高效的標準,持續推動行業的進步。」

然而,面對新的發展階段,業界也對一些視頻標準組織提出了不同聲音。有一種觀點認為,像 MPEG 這樣的標準組織已經失去了主導的角色,大家還在為了零點幾的性能增益絞盡腦汁,而這帶來的是更大的計算成本,這種自嗨式的創新更多是一種刷存在感,並沒有帶來本質上的技術前進或創新,業界應該找到新的思路解決視頻壓縮問題。

面對這樣的雜音,葉琰表達了自己的判斷 ——「我不太認同把傳統框架和全新框架當成隔離甚至對立關係這種觀點。雖然傳統框架下挖掘性能越來越難,但是這個方向是基於大家熟悉的框架,有利於軟件硬件實現,而 ECM 也充分展示了這個框架仍然可以提供可觀的性能增益,所以不能輕易放棄。另一方面來說,JVET 也在探索什麼樣的新框架或者新工具可以一蹴而就,拿到大幅的性能增益。同時我們也非常關注這個新框架需要消耗什麼水位的計算成本?實話說,我們現在還在摸索,所以必須依靠兩條腿走路的方式,才能找到最有潛力並且可實現的下一代編解碼技術。」

的確,每制定一代編碼標準都是一個非常艱巨的工作,不能一蹴而就。以目前業界的最新標準 VVC 為例,其正式開始之前的預研工作就花了 3 年左右的時間。正是因為如此,在 VVC 標準定稿不到一年, JVET 於今年上半年就設立了 ECM 軟件平台,用以進行下一代編碼標準的技術預研和開發。葉琰說到:「雖然目前 ECM 的壓縮能力已經超過 VVC 大概 14%,但是按照之前的經驗,這個預研工作還需要若干年的時間才能達到新一代標準的壓縮性能增益要求。在市場和業務變化萬千的今天,我預計這幾年將會見證很多 5G 視頻應用場景的興起。」

何亞明:「雲 + 端 + 服務」 是視頻雲未來的大趨勢

image.png

何亞明是阿里雲智能事業群視頻雲資深技術專家,視頻雲技術研發負責人。加入阿里巴巴之前曾就職於美國 Facebook 和微軟,在微軟擔任 Principal Software Engineer,從事視頻編碼和視頻雲的研發,在 Facebook 負責實時音視頻和直播技術的研發,短短几年內將 Facebook Messenger 和 Facebook Live 兩款產品從零打造成擁有 10 億級用戶的明星產品。

「音視頻具有天然的雲原生屬性,『雲 + 端 + 服務』是未來音視頻發展的大趨勢。」 這是阿里雲智能視頻雲資深技術專家,視頻雲技術研發負責人何亞明做出的判斷。

在何亞明看來,音視頻的發展一直是雲原生的最佳實踐:雲的基礎設施 —— 包括中心節點、邊緣節點、CDN 網絡是保障音視頻大規模分發和傳輸的基礎;雲的計算能力和隨意的彈性能力,給音視頻業務帶來無限的算力的同時還能有效控制成本,衍生出更多新場景。另外,在音視頻端側設備越來越豐富的今天,「雲」 與 「端」 的協同顯得愈發重要,2020 年,阿里雲提出了 「雲端一體 「的戰略,在這樣的大背景下,其路徑優勢愈發凸顯 —— 依託阿里雲強大的雲上算力,可以讓端變得更智能,更輕便,更靈活,讓開發者打造出千人千面的創新應用,其開發效率、運維成本、延展性都得到了極大優化。在 「雲端一體,雲邊一體,軟硬一體」 的進擊之路上,何亞明特彆強調了 AI 在其中的重要作用 ——「我們特彆強調 AI 的應用落地,從智能視頻編碼,圖像增強到超分辨率,從智能美顏、虛擬背景、美聲變聲到視頻卡通化,可以說我們是在舉全集團的 AI 之力,在推動音視頻場景走向更廣闊的空間。」

image.png
(阿里雲智能視頻雲參與科技冬奧 – 雲轉播平台國家重點研發項目)

「此次峰會,阿里雲視頻雲帶來的專場主題是『從上雲到創新,視頻雲的新技術與新場景』,在這裡我想特彆強調『創新』這個詞,上雲已經是視頻行業的共識,並且基本完成了雲原生化的進程,我們真正面臨的難題是如何在雲上完成下階段的創新,各家廠商應該從提供資源和工具,向提供服務和生態這個轉變作為突破口」 何亞明如是說。

目前,國內頭部的雲廠商大多擁有強大的技術服務能力和完備的內容消費生態,讓視頻產品服務化,通過 API 化,PaaS 服務,PaaS+,SaaS 工具,端上 SDK,低代碼平台等手段減低視頻技術的接入門檻,更好地服務開發者,最終更好的服務視頻的生產和消費者。

如今,面對國內頭部雲廠商在視頻雲領域的激烈競爭,何亞明看到的更多的是機遇:「這是我們非常願意看到的趨勢,也正是我們不斷推動行業前進的結果,阿里雲也希望越來越多的有志之士加入到視頻雲的隊伍中來,一起將視聽帶入新的時代。」

技術和場景:視頻雲面向未來的創新與挑戰

在 2021 年 5 月北京舉辦的阿里雲智能雲峰會上,阿里雲智能事業群總裁張建鋒宣布阿里雲將在 「做深基礎、做厚中台、做強生態」 基礎上,新增 「做好服務」 作為重要戰略。視頻雲技術作為雲計算、人工智能、網絡等技術與行業場景結合非常緊密的領域,阿里雲一直堅持於底層技術的深耕、中台技術的應用和服務場景的創新。

視頻編解碼是阿里巴巴在業界一直具有優勢地位的技術領域,也是集團堅持於音視頻基礎技術研究的具體行動。阿里雲視頻標準團隊在 2020 年中剛剛結束緊張的新一代國際視頻編解碼標準 H.266/VVC 的技術開發工作,就第一時間投入人力開始大力推進基於 H.266/VVC 的編解碼器開發工作。隨後不久阿里雲發佈了實時高清編解碼器 Ali266,有力推動了 H.266/VVC 標準應用的落地,真正開啟 H.266/VVC 的商用之路。

image.png

在談到 Ali266 的研發難點時,葉琰說:「一個成熟的商用編碼器必須通過算法的深度優化才能滿足實時編碼速度的要求,為了拿到 H.266/VVC 所提供的強大壓縮性能,必須針對輸入視頻內容從 VVC 所提供的眾多編碼工具中又快又准地選擇最合理的編碼工具。所以我們開發 Ali266 也是沿着這個軌跡,深入 VVC 編碼工具集,通過對各個編碼工具進行定性和定量的研究,來幫助我們進行編碼工具的選擇。同時,我們在算法優化過程中也格外關注主觀質量,遇到與客觀質量指標之間的衝突時,我們會更加傾向於保證更高的主觀質量,也就是保證最終的用戶體驗。Ali266 能夠第一時間達到實時高清和實時全高清的編碼速度,同時和 HEVC 的編碼性能拉開足夠的差距,和我們採取這樣的開發策略有直接的關係,現在興起的 VR/MR 需要更高分辨率的視頻格式作為技術底座支撐,因此 VVC 所提供的帶寬節省能力也更加可貴。所以我們會持續投入開發 Ali266,讓它能越跑越快,在不久的將來達到超高清 4K 甚至 8K 的實時編碼能力。也會為更加高效的編解碼標準提供很好的落地場景。」

不僅是在音視頻技術領域的深耕,隨着阿里雲視頻雲業務與阿里集團整體業務的深入融合以及行業客戶的深耕實踐,阿里雲視頻雲與人民日報新媒體、淘寶直播、LAZADA、優酷等內外部客戶的場景合作也愈發豐富。2018 年,阿里雲與奧林匹克廣播服務公司聯手打造奧林匹克轉播雲 OBS Cloud。今年,奧林匹克轉播雲在東京奧運會上首次投入使用,為全球轉播機構提供雲上轉播支持,這是奧運歷史上首次採用雲計算支撐全球視頻轉播,讓全球觀眾在雲上突破了疫情的阻隔。

image.png
(2020 年東京奧運會,阿里雲與國際奧委會合作,實現全程 「奧運上雲」)

面對還將持續的全球疫情,何亞明預計視頻技術的需求還將會在直播、會議、電商、娛樂、協作方面繼續保持增長 ——「隨着 5G,AR,VR 技術的發展和基礎設施的完善,更低的延遲( < 100ms),更高清(8K+),更沉浸式(3D 全息,環繞音效)的交互方式將會改變很多行業,除了人與人,音視頻也會讓人與物,物與物之間建立更多的聯繫,人類的交互方式將再一次升級。記得媒體界流行的一句話:最初即最終。意思是人類最早是靠視覺來接受信息,感受這個世界的,從最初的語音到文字到圖片再到視頻,最終又回到了最初的形態。我認為這個論斷不完全對,視頻的交互形態還在不斷演進,電影 Matrix 和頭號玩家,包括最近很火的元宇宙已經給我們描繪了一個未來交流形式的腦洞。」

從上雲到創新,視頻雲的新技術與新場景

Topic

⏰ 活動時間:2021/10/30 14:00-18:00
🚀 參與方式:坐標北京,線下參與(免費)

掃描圖中二維碼或點擊閱讀原文
了解專場活動更多信息
↓↓↓
image.png

掃碼入群
了解更多 LVS 大會和視頻雲信息
↓↓↓
image.png

「視頻雲技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這裡與音視頻領域一流工程師交流切磋。公眾號後台回復【技術】可加入阿里雲視頻雲產品技術交流群,和業內大咖一起探討音視頻技術,獲取更多行業最新信息。