Zoe Liu:傳統演算法與深度學習各有所長
- 2019 年 12 月 1 日
- 筆記
第一次MSU影片編碼大賽就取得了「主觀評分」第一,微幀團隊到底做了哪些創新的嘗試?深度學習真的是編解碼的未來嗎?LiveVideoStack通過郵件採訪了微幀聯合創始人Zoe Liu,向我們揭開參加MSU影片編碼大賽背後的故事。
文 / ZoeLiu
策劃 / LiveVideoStack
LiveVideoStack:Zoe你好,這是第二次和你通過郵件採訪的方式對話,和上次對話不一樣,你的身份已經發生了變化。能否藉此向LiveVideoStack的讀者介紹下自己?
Zoe:嗯,上一次我還是在Google做軟體工程師,現在已經是微幀團隊的聯合創始人了。我是去年2018年7月從Google離職,跟我的合伙人朱政一起創建了微幀科技(Visionular)。時間逝去還是蠻快的,我從Google離職時,正好是開放媒體聯盟(AOM)新一代開源影片編碼標準AV1剛剛結束並推出的時候。我們微幀,現在在杭州和矽谷同時設置有研發團隊,並在北京設有專註於產品、運營和市場的團隊。我們主要致力於影片AI+編碼和處理技術的打造,提供面向企業的相關產品和服務,力圖影片頻寬需求更小、畫質更清晰的極致解決方案。我們在做AV1編碼內核優化的同時,也對H.264等主流編碼標準,推出了智慧編碼和處理引擎,結合AI技術在影片處理和編碼的多個環節,推出了不同形態的產品,包括私有雲部署解決方案,以及公用雲SaaS方案的嘗試。
在微幀之前,我曾就職於Google5年,是AOM/AV1的主要貢獻者之一。從學校到現在,對影像/影片編碼標準及相應編解碼器優化技術,有相對比較長時間的研發經歷。我曾參與過蘋果公司的FaceTime、TangoMe跨移動平台VideoCallAPP、以及GoogleGlass的VideoCall研發和最終的delivery。之前還曾在一些實驗室工作過,包括BellLabs,NokiaResearchCenter,SunLabs,以及HPLabs。
我跟LiveVideoStack音影片社區算是很有緣份吧。2017年10月是LiveVideoStack推出的第一次技術大會,當時我還是代表Google來做AV1相關的Keynote,結果機緣巧合碰到了我的合伙人,也看到了中國音影片領域的迅猛發展,此後一步步,改變了我的職業道路,開始加入了創業者的行列。之後的每一次LiveVideoStack大會,我都沒有缺席過。LiveVideoStack目前也成長為中國公認的音影片領域最有影響力的技術社區了。我們很期待跟LiveVideoStack一起的成長。在這裡,也很期待與業界前輩和朋友們更多的交流,一起推進技術的演進和發展。
LiveVideoStack:Visionular的AV1Codec在2019年MSU影片編碼大賽「主觀評分」中排名第一,也是此次參賽的唯一的AV1代表。能聊聊這背後的故事嗎?
Zoe:前面有提到,我們團隊的核心,是對影片編碼以及將AI應用於影片編碼演算法和技術上的打造。我自己從GoogleAV1團隊出來,經歷了AV1從無到有的整個周期,我們微幀也是中國市場上與愛奇藝同時加入AOM最早的兩家會員。
我們去年團隊成立伊始,就有跟Google合作,對於AV1目前最具代表性的開源codebase、名為libaom的優化,有比較多的貢獻。libaom裡面有200條以上的程式碼貢獻,均來自於我們的團隊成員,既包括對AV1標準本身的貢獻,也有對libaom編碼器的早期加速。與此同時,我們參與了AOM比較多的生態建設。AOM前主席MattFrost先生在去年、今年兩次蒞臨杭州,都有跟我們的團隊當面交流。
AV1不僅是開源的編碼標準、不涉及版權,編碼工具打造上也具有一定的先進性,MSU早些時候的評估數據,即呈現了AV1相對於H.265、VP9等主流編碼標準的標準優勢。另外,AOM成員,包括有海外主要的影片內容製作商,諸如YouTube、Facebook等UGC平台,Netflix、AmazonPrimeVideo等PGC平台等;咱們中國的互聯網巨頭企業阿里巴巴、騰訊等也相繼成為AOM的重要成員。
儘管AV1的生態,在標準制定不久後確實還需要一定時間的積累;其實,現在Chrome等主流瀏覽器都早已支援AV1的解碼播放,AndroidQ也會全面支援AV1,移動端、尤其Android端的解碼晶片在全力打造,再加上蘋果也是AOM成員之一。我們相對對AV1的優化研發,起始的比較早,外加我們的團隊在H.265等編碼器優化上的積累,在AV1上的努力會相對超前一些。我們現在不僅針對點播場景,還包括直播、RTC場景,都在努力的將AV1實現產品落地。我們在技術打磨的同時,非常關注客戶的實際需求。
我們在今年阿姆斯特丹全球最大的IBC媒體技術展會上,被GoogleCloud邀請,特別介紹了我們的AV1技術和相應的產品。在9月的杭州阿里雲棲大會上,我們也參與了5G+影片為主題的圓桌論壇,與其他業界的學者和技術同仁探討各類影片編碼標準的發展前景。在10月舊金山舉行的AOM全球第一次Summit上,我們也被AOM邀請,介紹了我們AV1的技術概況以及性能更新。這次AOMSummit的全部演講PPT已在AOM網站上分享(https://aomedia.org/aomedia-research-symposium-2019/),其中對AV1編解碼優化發展現狀,下一代標準AV2規劃,以及AI+編碼技術,均有一定的探討。
我們參與MSU評估,最主要的初衷,是希望可以在MSU嚴格、客觀的影片編碼評估流程中,檢驗一下我們自己編碼器的性能。MSU測試有比較嚴格的編碼速度要求。即使是慢速檔,包括主觀評估檔,他們均要求對於他們內部給定的1080p影片,在一定的機型上面,達到編碼速度每秒一幀的指標。MSU這次的報名截止日期是今年3月底,當時我們還在AV1全力優化的相對早期階段,AV1編碼工具相對複雜,提速的同時保持編碼性能,確實是充滿了挑戰的。我們能代表AV1標準參比,有我們自身的努力,同時也很感謝AV1的開源社區。AV1開源程式碼,包括liabom、SVT-AV1的打造,提供給了大家許多的借鑒。我們是站在巨人的肩膀上向上走的。
LiveVideoStack:我注意到Visionular只出現在「主觀評分」報告中,沒有出現在「客觀評分」報告中,這是什麼原因?
Zoe:我們的編碼器優化,包括我們集中研發主力在AV1上的優化,以及我們對264編碼技術和產品的進一步打磨,主要是針對客戶需求推進的。我們是一家2B企業,我們的研發和技術是客戶需求反推的。我們的客戶最關注的,是影片的主觀品質,因此我們的產品以及背後的研發演算法,主要也是針對主觀品質優化展開的。這應該是我們在MSU主觀評估類別上表現突出的一個原因。
今年的MSU「HEVC/AV1VideoCodecsComparison2019」評估報告,分為免費版和企業版。企業版提供詳盡完整的報告,可以從如下鏈接中付費獲取。
http://www.compression.ru/video/codec_comparison/hevc_2019/
MSU近兩年免費公開版,只給出基於客觀品質評估指標SSIM的評估結果。如果可以看到MSU完整的客觀數據報告,就會看到MSU按照3種客觀品質評估指標,包括SSIM/PSNR/VMAF的詳盡評估結果,包括客觀品質評估類別中,我們在100個不同1080p影片上的具體編碼性能數據,以及相應指標下的排名。
我們在客觀品質評估中的表現,雖然沒有主觀品質評估類別中的結果那樣顯赫,卻同樣是有相當的競爭力的,尤其是在YComponent的PSNR數據上的表現,可圈可點。PSNR的評測數據需要在MSU企業版中才可以看到。
前面有講到,我們參比,主要是想檢驗一下我們自己的編碼器,並沒有為比賽而比賽的想法。MSU評估分為多個類別,我們今年主要參加兩個類別:一是主觀品質類別評估,另一個名為Rippingusecase類別,主要是指慢速檔。這兩個類別,均要求影片編碼速度必須達到1fps,即一秒內要完成對指定1080p影片一幀影像的編碼。對於AV1來講,這個挑戰還是蠻大的,因為AV1相比VP9,增添了70+新的編碼工具,編碼決策複雜度大幅提升,需要達到這個編碼速度、同時保持標準優勢,讓AV1足夠體現它的標準優勢,並不是很輕而易舉的事情。
我們客觀指標下的數據,在一些影片序列中確實出現了badcase,一些RD曲線表現異常;在MSU主觀類別測試中,應該是我們相對幸運,這些badcase並沒有出現那麼頻繁。
MSU每年的測試評估,相對非常全面而細緻,評測周期也比較長。現在看到的MSU評測結果,是我們今年3月底提交的WZAuroraAV1編碼器的性能結果。我們一直在持續優化,包括編碼速度、編碼性能,以及編碼器的多執行緒、記憶體損耗等多項指標,我們在全方位的提升。與此同時,我們在WZAurora上增添了不同的速度檔,針對點播、直播、RTC實時等不同應用場景,我們均在做努力細緻的打造。期待未來我們會有更好的成績,尤其期待我們有更優質的產品,可以提供給我們的企業客戶。
LiveVideoStack:你認為,AI壓縮技術有可能追趕甚至超越傳統的編碼技術嗎?
Zoe:AI多媒體壓縮技術,目前在圖片領域,應該是早於影片開始嘗試的。尤其是基於各種深度神經網路模型的圖片壓縮嘗試,在顛覆傳統的圖片編碼技術,取代小波變換、DCT變換,並取得了與傳統圖片編碼框架相近或相當的編碼性能。目前完全基於機器學習的圖片編碼技術,還沒有進入編碼標準,也沒有非常成熟的產品落地,主要受限於編解碼的複雜度,但確實表現出一定的潛力。
機器學習應用於影片編碼,業界一直有許多的嘗試,包括AV1開源編解碼codebase中,會有不少實現範例。大家可以checkAV1的開源codebaselibaom中每次貢獻的CL(ChangeList),在comment中查詢NeuralNetworks等關鍵字,應該會看到不少機器學習的實際應用,包括碼控的優化,RD指標的快速估算,基於NN的快速編碼演算法等。不過影片相比圖片,增加了一個時間維度,相應編碼演算法的overall複雜度是數量級上的區別。在最新影片編碼標準VVC(akaH266)、AVS3、AV1等編碼工具提案以及相應參考模型的開源實現中,我們了解到的基於機器學習的AI演算法工具,主要是在傳統混合編碼框架下(運動估計+2D變換),對於編碼各個模組的進一步優化,並沒有顛覆影片編碼的基本架構。
AI的出現,5G的大規模推廣,應該會給影片帶來許多新的展示方式,包括Stadia雲遊戲平台的推出,未來VR與全景影片的深度推廣,影片編碼後續應該會與AI技術有更多的耦合,尤其是編碼與影片分析、處理的綜合自適應運用。不同影片內容的細分類,有可能會出現更為專註的編碼工具,比如針對螢幕內容、遊戲內容、動漫內容等的特定編碼工具,以及基於ROI(感興趣區域)的編碼演算法等,可以相對自然的引入影片內容的分類以及特定物體的檢測,這些都給AI與編碼的結合提供了比較廣闊的空間。
我們是以技術打造為核心的企業,很多時候,我們會比較看重傳統影片編碼、處理演算法,與機器學習演算法的結合。我這裡給大家舉一個實例:我的一位清華同系創業的師兄,幾年來一直在專註打磨眼球跟蹤、FOV檢測的穿戴式軟硬體一體的產品,他們目前已經可以做到識別出人在讀書時眼睛在文字上掃描的pattern(包括移動速度、移動平穩度、變換方向等),也可以在博物館等大空間場景下檢測出眼睛所關注的物體。他們目前的核心演算法,並沒有用到當下比較hot的深度學習技術,而是基於傳統的電腦視覺和模式識別技術實現的。我用這個實例,是想突出下傳統演算法的價值和潛力。大家公認的機器學習應用比較成功的幾大場景,包括電腦視覺、自然語言處理(NLP)、大數據分析等,而在電腦視覺這一機器學習如此被追捧的領域,傳統演算法同樣擁有許多突出的優勢。影片編碼,其實是有更多將深度學習和傳統演算法可以融合的領域,值得我們去探尋的。
LiveVideoStack:最近我體驗了TutorABC的AV1客戶端(瀏覽器),上直播課的延遲完全可以接受,但只能在PC端應用,無法部署在移動設備上。關於AV1的移動端硬體編解碼支援有最新的消息可以分享嗎?
Zoe:很開心聽到你們也體驗了AV1在TutorABC平台上的實用展示。我們與TutorABC團隊合作,一起將AV1RTC檔推到了他們的在線平台,應該是在線教育場景中AV1的第一款部署上線產品了。在線教育大課場景一般是以教師端影片為主,並且PC是老師主要採用的設備,可以充分支援AV1編碼;解碼端我們則是採用開源AV1解碼器dAV1d,在Android和iOS移動設備上支援是沒有問題的。
AOM成立之初,AV1最早的版本是由VP9衍生而來,一定意義上講,VP9可以看成AV1的一個子集。將AV1中計算複雜工具悉數關掉,即可推出AV1編碼快速甚至實時檔,但與VP9的編碼性能可能只會差之毫厘。我們將AV1推到RTC場景,是希望保持AV1的標準優勢,同時縮短首屏時間,減少編碼所需佔用的CPU以及memory資源。我們力求相同品質條件下,可大幅降低碼率以減少影片卡頓,或從另外的角度,相同頻寬、碼率條件下,可提供更加高清的畫質,從而最終服務於用戶體驗的提升。
影片目前在移動端上的實用,確實佔比是主要的。AV1開源軟體解碼器dAV1d,已經在移動端表現了相當大的潛力。我們當然也很期待,可以把AV1軟體編碼方案儘快推到移動端,但還需要一段時間的打磨的。
硬體編解碼器的支援,尤其是硬體解碼器在手機終端的支援,是AV1生態推廣中非常重要的一環。AOM中的主要硬體廠商,都有在研製AV1編解碼相關晶片。其中Realtek、Broadcom等,是比較早推出AV1硬體解碼IP原型的廠商。高通(Qualcomm)、聯發科(Mediatek)等非AOM成員廠商,應市場趨勢,也同樣在打造相關的晶片方案。我們從手機廠商了解到的訊息,解碼晶片2020上半年預計會大規模推出,尤其是針對Android平台的。iOS上的支援,以蘋果的風格,永遠都會是在其產品已經完全ready時才會公諸於世,不過蘋果早已是AOM成員,一定程度上體現了他們對於AOM/AV1這一開源編碼標準的支援立場。在已經正式開始討論的AV2編碼標準前期策劃中,蘋果也是AOM中非常活躍的一員。
另外,也有業界人士提到,電視終端,有可能先於移動端,推出AV1的硬體顯示設備。
編碼晶片,包括面對IPC、移動手機終端的晶片產品,應該會接踵而至的。業界早有注意到,包括Google、華為海思等團隊,很早就開始跟進AV1的標準制定,躍躍欲試於AV1編碼晶片的打造了。我們也直接了解到,其他廠商的AV1編碼IP和產品,也已經跟市場上相應的終端客戶以及雲廠商,在實際售賣交易階段。