騰訊開源中國首個影片品質評估演算法DVQA,騰訊會議就在用
- 2020 年 3 月 31 日
- 筆記
允中 發自 凹非寺 量子位 報道 | 公眾號 QbitAI
還在為音影片品質評估苦惱嗎?
視聽時代,音影片應用越來越廣泛:直播、短影片、影片節目、音影片通話……近期由於新冠疫情帶來的在線協同辦公、在線教育類產品的崛起,更帶來了線上音影片需求的爆發,用戶對音影片品質訴求也愈加強烈。

有沒有高效又有「質保」的方法?
騰訊最新開源來了。
騰訊多媒體實驗室,近期設計的基於深度學習的全參考影片品質評估演算法DVQA,在Github上正式開源,該演算法模型的性能,目前還在公開測試數據集上取得業界領先成績。

解決什麼問題?
在整個影片鏈路中,大部分模組都可以精確度量,如採集、上傳、預處理、轉碼、分發等。然而未知的部分卻恰恰是最關鍵的部分,即用戶的影片觀看體驗到底怎麼樣。
目前行業內的影片品質評估方法分為兩大類:客觀品質評估與主觀品質評估。
前者計算影片的品質分數,又根據是否使用高清影片做參考、源影片是專業影片還是用戶原創影片等進一步細分。
後者主要依賴人眼觀看並打分,能夠直觀反映觀眾對影片品質的感受。

然而,這些方法仍存在耗時費力、成本較高、主觀觀感存在偏差等難題。
而騰訊多媒體實驗室提出的影片品質評估解決方案,首先結合業務需求,使用「在線主觀品質評測平台」,來構建大規模主觀品質資料庫。
同時使用所收集的主觀數據來訓練基於深度學習的客觀品質評估演算法。
最後把訓練好的品質評估演算法部署到業務線中,閉環監控可能存在的品質問題。
從以上三個角度出發,DVQA能夠在兼顧不同業務、場景的前提下,滿足效率與精度兩大需求。
DVQA包含多個品質評估演算法模型,本次開源的是針對PGC影片的演算法C3DVQA。
本項目使用Python開發,深度學習模組使用PyTorch。
程式碼使用模組化設計,方便集成較新的深度學習技術,靈活的自定義模型,訓練和測試新的數據集。
在演算法設計上,C3DVQA所使用的網路結構如下:

其輸入為損傷影片和殘差影片。網路包含兩層二維卷積來逐幀提取空域特徵。級聯後使用四層三維卷積層來學習時空聯合特徵。
三維卷積輸出描述了影片的時空掩蓋效應,再使用它來模擬人眼對影片殘差的感知情況:掩蓋效應弱的地方,殘差更容易被感知;掩蓋效應強的地方,複雜的背景更能掩蓋畫面失真。
網路最後是池化層和全連接層。池化層的輸入為殘差幀經掩蓋效應處理後的結果,它代表了人眼可感知殘差。全連接層學習整體感知品質和目標品質分數區間的非線性回歸關係。
效果如何?
在評測結果上,騰訊多媒體實驗室在LIVE和CSIQ兩個影片品質數據集上對所提出演算法的性能進行驗證。
並使用標準的PLCC和SROCC作為品質準則來比較不同演算法的性能。
將所提出的C3DVQA與常用的全參考品質評估演算法進行對比,包括PSNR,MOVIE,ST-MAD,VMAF和DeepVQA,結果如下:

目前該評估演算法已在騰訊內外部多款產品中進行使用驗證,如騰訊會議就藉助實驗室上百個符合ITU/3GPP/AVS等國外內標準的指標進行評判,閉環監控全網的用戶體驗品質,從用戶真實體驗出發,不斷優化產品性能。
出品團隊
騰訊多媒體實驗室,騰訊旗下頂尖的音影片通訊和處理研發團隊,專註於實時音影片通訊、音影片編解碼前沿演算法研究、音影片國際標準、電腦視覺影像處理、端到端音影片品質評測。在實時音影片通訊和處理技術、音影片國際標準等領域積累了完整的解決方案和領先的技術水平。
最初名「騰訊音影片實驗室」,2019年正式更名為「騰訊多媒體實驗室」。

目前實驗室掌舵者為劉杉博士,騰訊傑出科學家,也是騰訊T5——騰訊技術體系最高職級中的唯一一位女性。
劉杉本科畢業於清華大學電子工程系,碩士和博士畢業於美國南加州大學電機工程系,2017年正式加盟騰訊。
傳送門:
開源地址:
https://github.com/Tencent/DVQA
中國鏡像地址:
https://git.code.tencent.com/Tencent_Open_Source/DVQA
作者系網易新聞·網易號「各有態度」簽約作者
— 完 —