影片品質評估演算法 DVQA 正式開源

DVQA是騰訊多媒體實驗室設計的基於深度學習的全參考影片品質評估演算法。在整個影片鏈路中,我們可以量化大部分模組,如採集,上傳,預處理,轉碼,分發。我們最未知的卻恰恰是最關鍵的部分,即用戶的影片觀看體驗。DVQA適用於在源參考影片可用的場景下,精確衡量影片內容的人眼感知品質。

DVQA包含多個品質評估演算法模型,本次開源的演算法為C3DVQA。本項目使用Python開發,深度學習模組使用PyTorch。程式碼使用模組化設計,方便集成較新的深度學習技術,靈活的自定義模型,訓練和測試新的數據集。

演算法設計

C3DVQA所使用的網路結構如下圖所示。其輸入為損傷影片和殘差影片。網路包含兩層二維卷積來逐幀提取空域特徵。級聯後使用四層三維卷積層來學習時空聯合特徵。三維卷積輸出描述了影片的時空掩蓋效應,我們使用它來模擬人眼對影片殘差的感知情況:掩蓋效應弱的地方,殘差更容易被感知;掩蓋效應強的地方,複雜的背景更能掩蓋畫面失真。

網路最後是池化層和全連接層。池化層的輸入為殘差幀經掩蓋效應處理後的結果,它代表了人眼可感知殘差。全連接層學習整體感知品質和目標品質分數區間的非線性回歸關係。

評測效果

我們在LIVE和CSIQ兩個影片品質數據集上對所提出演算法的性能進行驗證。並使用標準的PLCC和SROCC作為品質準則來比較不同演算法的性能。我們所提出的C3DVQA與常用的全參考品質評估演算法進行了對比,包括PSNR,MOVIE,ST-MAD,VMAF和DeepVQA,結果如下表所示。

方法

PLCC (LIVE)

SROCC (LIVE)

PLCC (CSIQ)

SROCC (CSIQ)

PSNR

0.7271

0.7398

0.5988

0.6106

MOVIE

0.8609

0.8481

0.6295

0.6247

ST-MAD

0.8570

0.8386

0.7674

0.7766

VMAF

0.8115

0.8163

0.6570

0.6377

DeepVQA

0.8952

0.9152

0.9135

0.9123

C3DVQA

0.9122

0.9261

0.9043

0.9152

(LIVE和CSIQ兩個資料庫上不同全參考演算法性能比較)

真誠開源

我們希望DVQA能夠幫助解決影片感知品質評估的業務痛點,無論是使用現有模型還是使用自己的資料庫來訓練新模型。我們也歡迎任何形式的協同開發,不管是貢獻資料庫,還是貢獻預訓練模型,甚至是拋出業務場景中所遇到的問題。下一步計劃中,我們會:

  1. 進一步優化演算法性能,降低複雜度
  2. 更詳細的benchmark
  3. 拓展演算法至UGC影片場景

如果你對這個演算法感到興趣,還請給這個項目一個 Star,歡迎提出你的 issue 和 PR!

DVQA 正式開源!

https://github.com/Tencent/DVQA

(點擊文末閱讀原文直接訪問)

請給項目 一個 Star !

歡迎提出你的 issue 和 PR!

 中國鏡像地址:

https://git.code.tencent.com/Tencent_Open_Source/DVQA

(登錄後才能訪問公開項目)

騰訊工蜂源碼系統為開源開發者提供完整、最新的騰訊開源項目中國鏡像