AliRTC 開啟影片互動 「零計算」 時代

在 2021 雲棲大會《產業影片化創新與最佳實踐》影片雲主題論壇中,阿里雲智慧高級技術專家在《AliRTC 開啟影片互動 “零處理” 時代》的主題演講中,發布了阿里雲影片雲下一代實時交互解決方案 —RTC 「零處理」,同時分享了阿里雲影片雲在 RTC 產品的探索和實踐,以下為演講內容整理。

image.png

一、交互演進與挑戰

在過去幾年,影片交互產品發生了什麼變化?

我們認為 RTC 產品對行業產生了兩次非常重要的變革。

image.png

第一次變革是 2014 年開始的交互從圖文到音影片的升級。

2014 年,互聯網創業者與 RTC 產品供應商一起探索影片互動的商業化, 教育、娛樂成為主要的突破方向, 基於全球範圍內的互動授課、秀場影片連麥、多人交友互動,也大多在這時間點完成了商業與技術的成功結合。

2017 年是一個標誌性的時間點,RTC 產品已經幫助頭部互聯網客戶實現了顛覆性發展,標誌著互動影片技術與在線互動商業模式的成熟。

接下來幾年更多的是不同體量、不同場景的規模複製,所以我們能看到,在 2018 年以及後續的幾年,市場上並沒有新場景、新互動的創新,而是基於不同內容、不同客群的業務複製, 影片互動從頭部走向更多的細分市場。

第二個重要變革發生在 2020 年,受疫情影響,讓雲影片會議全面滲透,讓這個時間提前了至少 5 年。

這次市場的變化,我們不能稱之為一次技術革命,實際上對 RTC 產品並沒有新的訴求,也沒有產生新的互動場景和技術,但這次大規模的滲透,重新定義了供應商的市場格局,第一次讓雲廠商成為了市場極其重要的一部分,讓市場從單一的會議廠商,分裂為雲平台 + 會議終端供應商,讓我們的客戶有了更多的選擇。

從 2018 年到現在我們沒有場景上的根本突破,是不是因為我們的技術上遇到了瓶頸?

帶著這樣的問題,阿里雲對 RTC 場景技術進行了深入的技術評測,我們試圖發現整個行業大家的技術水位是什麼樣的,不同於單項的影片技術,RTC 的評測要更為複雜。

例如,對影片編碼,我們可以通過 PSNR,SSIM,VMAF 等來分析,對於影片分類等視覺演算法,我們可以通過 ROC 曲線來分析,但對影片 RTC 來說,涉及的主觀感受非常多,是一件比較複雜的事情,目前業界也沒有統一的評測標準。

我們從這些影響用戶感受的指標裡面抽出六個維度表徵 RTC 的表現品質。

對評測感興趣的話可以關注我們的**「影片雲技術」公眾號**,裡面詳細介紹了我們怎麼進行自動化評測的,評測過程中我們會創造不同的網路環境,檢測 RTC 在各方面的表現。

image.png

我們對行業里的 RTC 做了一些評測,發現有兩個特點。

第一,RTC 有明顯的技術門檻,比如說綠色的框代表一類典型的 RTC 能力,由規模較小的團隊自研,投入較小,會有明顯的差距。

第二個是幾個比較大的供應商,包括在阿里雲在內,外面這一圈,紅色的線、藍色的線,以及黃色的線,他們都處於相對比較一致的水平,但是沒有一家有特別優秀的地方,所以技術同質化特別嚴重,大家基本上處於同樣的水平。

image.png

我們當前影片的實時互動主要集中在線上線下場景,未來可能會有更廣闊的應用場景,比如說一些交互場景,VR 操控類、虛擬現實類。

這時候我們會思考一個問題,我們的技術是不是已經發展到了瓶頸期,我們無法滿足未來更廣泛的需求,這後面的原因是什麼?會不會是我們的技術發展到某個瓶頸了?因為技術通常是階躍式的發展,不能突破就會陷入在一個層次上。

二、「零處理」 加速交互升級

我們希望分析一下,現在用戶的體驗到底怎麼樣?我們現在的技術存在什麼問題?

通過比較各家 RTC 供應商,我們發現一個比較有意思的點,就是大家有千分之二的卡頓率是難以消除的。50%、60% 的丟包都可以做的很好,但是如果網路頻寬受限,千分之二的卡頓就難以消除了。

我們有一些手段可以解決類似的問題,比如利用窄帶高清技術,我們可以通過複雜計算解決這些問題,也可以通過非標螢幕編碼類技術解決,但是實際上我們很難把這些技術進行非常廣泛的利用。

最根本的原因是我們會發現端側能力是有限制的,大家的手機各不相同,有可能有些人的手機特別好,可以做複雜演算法,有些人手機差,無法進行複雜演算法,同時,端的碎片化比較嚴重,要對所有端適配是比較困難的。

在應用上我們希望能夠提供更有趣的交互,比如說實時生成卡通人物形象,這在端上可以運行,但是只有少數非常強大的設備才能運行。

一個自然的想法是,我們是不是能突破當前的應用架構?

我們把一個完全依賴端能力的架構,逐步轉變成依靠雲和端一起配合進行影片傳輸處理的架構,基於這個想法我們提出了雲處理 + 端渲染技術,目的是希望從雲上提供強大的處理能力,端上負責渲染,只需要提供很少的處理能力就能完成比較好的處理效果,使大家在不同的手機上都能得到一樣的體驗。

image.png

這就是影片雲**「零處理」 解決方案**的基本架構圖,在端上只需要進行比較簡單的影片採集以及影片傳輸,然後通過我們構建的覆蓋全球的 GRTN 網路到達雲端,雲端使用 GRTP 的雲端實時處理引擎對影片進行處理,再把處理好的影片傳到端上,端上只需要做簡單的呈現。這樣可以很好的解決剛才提到端計算能力不夠和碎片化的問題。

但是天下沒有免費的午餐,採用上面的架構,很容易發現幾個問題。

第一,我們的雲上是不是能承受這麼大規模的處理。

第二,雲上能不能承擔這麼大規模的成本。

第三,雲上能不能持續提供這麼多類型的處理服務。

我們自己的信心來自於幾個方面。

第一,通過阿里多年的積累,我們積累了業界最大規模的雲上影片處理集群,所以我們在技術上已經具備承擔超大規模處理的能力。

image.png

第二,關於成本。

下圖是我們處理的一張業務圖的示例圖,橫坐標是時間,縱坐標是資源使用量,黑色的線一種業務,紅色線是另一種業務,可以看到,每種業務都存在大量的業務空閑期,業務空閑期可以讓我們有大量資源供我們復用,當我們把多種業務混跑時,就能把資源利用起來,大幅度降低成本。

除了在時間上的混跑,我們也可以通過空間上的混跑和異構的混跑,將整體的成本降下來。

image.png

第三,由於我們背靠阿里集團,包括我們自己也有很多影片演算法處理積累,所以我們有機會持續不斷的提供豐富的演算法和處理能力。

image.png

三、「零處理」 實踐分享

接下來是阿里雲影片雲在零處理的實踐。

image.png

第一個場景是使用 MCU 解放端側算力

通常情況下,我們做 RTC 直播時,觀眾看到的直播畫面是通過 RTMP 協議來完成的,這種情況下由於延遲的原因觀眾是無法參與到直播互動的。要增強觀眾的互動性,需要大家都加入 RTC 網路,每個端訂閱多個流對端的算力和網路流量都是非常大的負擔。

我們通過雲端的 MCU 把流合併,重新進入到 RTC 會議里,這樣觀眾可以通過 RTC 方式看到直播流,非常方便進行互動,同時也無需消耗過多的端上資源。這種模式我們稱為互動低延時模式,已經是我們一個成熟的產品能力。

image.png

第二個場景,雲轉推

這是一個我們打通阿里內部服務能力的例子,我們通過和阿里集團安全部的合作,將 RTC 的流通過內網和安全部的產品打通,減少了中間環節,實現低成本、低延遲的內容審核。

image.png

第三個場景,雲特效

相信這個場景大家已經看過,利用雲端的處理,我們實現了虛擬會議室,通過雲端的 MCU 將所有人進行摳圖 + 貼圖,來提升影片會議時的參會體驗,這是阿里內部開會時已經可以運用到、並看到的技術。

上面展示的實時虛擬形象,是依託 GRTN 實時傳輸網路,將影片流傳輸到雲端,雲端對影片進行摳圖,變聲,卡通化等複雜的 AI 處理,終端只負責展示,從而實現了端側零處理。

「零處理「作為下一代實時交互解決方案,在雲廠商中率先推出,解決了新交互時代因端側算力受限而無法實現的虛擬交互場景難題,充分利用雲端一體的超精細算力,以雲特效構建實時虛擬場景,是全面打開沉浸交互新世界的一項重要演進。

AliRTC 系列內容

阿里雲 RTC QoS 螢幕共享弱網優化之若干編碼器相關優化

阿里雲 RTC QoS 弱網對抗之變解析度編碼

阿里雲 RTC QoS 弱網對抗之 LTR 及其硬體解碼支援

「影片雲技術」你最值得關注的音影片技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這裡與音影片領域一流工程師交流切磋。公眾號後台回復【技術】可加入阿里雲影片雲產品技術交流群,和業內大咖一起探討音影片技術,獲取更多行業最新資訊。