騰訊多媒體實驗室亮相GBA-IAS 2019聲學論壇,深度分享音頻前沿技術
- 2019 年 12 月 30 日
- 筆記
12月16日,由香港科技大學深圳研究院主辦的GBA-IAS 2019聲學論壇(GREATER BAY AREA -INTERNATIONAL ACOUSTICS SYMPOSIUM),在深圳正式召開。隨著虛擬現實技術的發展,音影片行業對3D音頻等技術的需求也更加強烈,本此論壇以「感知與聲音」為主題,來自中國外眾多知名大學、科研機構的多名心理學、聲學、訊號處理和電腦科學的專家出席,對各自團隊的研究進展和新思路進行了分享與交流。在音影片領域積累多年的騰訊多媒體實驗室團隊受邀參會,騰訊多媒體實驗室高級總監商世東、專家研究員肖瑋、王燕南等就多媒體實驗室的音頻前沿演算法及應用進行了分享。

(GBA-IAS 2019聲學論壇,與會專家合影)
多媒體實驗室成立於2016年,專註音影片通訊技術的前瞻性研究,包括全球實時音影片網路優化、音影片處理、音影片標準、多媒體編解碼前沿演算法研究、電腦視覺影像處理、基於AI的音頻語音增強、聲音美化及音影片品質評測等,在實時音影片通訊等技術領域積累了十餘年的研究經驗,一直保持業界的技術領先性。商世東詳細介紹了多媒體實驗室的音頻技術全景圖、音頻端到端方案的技術框架以及5G時代下音頻技術發展面臨的挑戰和機會。
「騰訊多媒體實驗室,對於聲學領域的技術發展和產業落地始終秉持著開放的態度,也希望能和行業的企業、高校等機構共同合作,一起推動聲學領域技術的進步和落地應用。」商世東介紹道,隨後,商世東主持了基於球面諧波技術和聲音場景分類的空間聲學研討會,與來自澳大利亞國立大學的Thushara教授和華南理工大學的師生展開了熱烈的討論。

(騰訊多媒體實驗室高級總監 商世東)
高效率音頻超分演算法的無限可能
騰訊多媒體實驗室專家研究員肖瑋,基於多媒體實驗室在高效率音頻超分領域的進展,同與會專家進行了深入的交流與探討。作為騰訊天籟音頻解決方案的重要支撐,音頻超分演算法具有無需修改網路協議,無需額外數據傳輸,人工生成高頻頻譜提升用戶主觀體驗的特點。「我們知道豐富的高頻聲音訊號能夠帶來更加出色的聽覺體驗,但在實際應用中,受設備取樣率等因素影響,我們時常會遇到不含高頻訊號的窄帶語音,從而對聽感產生影響。」肖瑋介紹道。
為了解決這一問題,行業內已經公開一些利用深度學習的思路,完成寬頻頻段重建的工作;但由於對數據的強依賴,外加模型體積過大,複雜度也相對較高,難以部署在客戶端。為了解決這一問題,多媒體實驗室將深度學習技術與經典語音訊號技術處理、心理模型等技術進行融合,通過輕量級建模,從而克服了一般深度學習演算法中對數據的過度依賴以及網路模型過大等問題,僅2MB的技術模型就可輕鬆部署於各類客戶端,同時保證寬頻頻段的重建精度和品質。此外,肖瑋還向與會專家現場進行demo演示,就超分演算法如何面對真實應用場景、優化建模方法以及功能擴展等方面與與會專家進行了深度交流。
目前這一演算法已部署至騰訊會議,實現由窄帶語音輸入到寬頻語音輸出的轉換;此外,在提升聽障人士語音通訊體驗領域,超分演算法也具備著巨大的應用前景。

(騰訊多媒體實驗室專家研究員 肖瑋)
深度學習演算法助力語音增強
騰訊多媒體實驗室專家研究員王燕南,就實驗室在語音增強、伴奏分離等領域的研究進展進行了分享。在錄音過程中,由於環境和採集設備的局限性,可能會捕捉到多種不同的聲音,而在採訪等場景中,我們很可能只需要一到兩種聲音,那麼應該如何將有用的聲音分離出來呢?為了解決這一問題,多媒體實驗室提出基於神經網路深度學習的概率學習框架。
以往處理這類問題,業內人通常會採用一種名為常規最小均方誤差的訓練準則,進行深度學習,在訊號處理的過程中,這一模型能夠通過矩陣式的運算,讓輸出的訊號儘可能接近輸入的訊號。由於較高的計算量難以滿足即時通訊環境下的需求,無法實現高效的語音分離,多媒體實驗室自研了基於深度神經網路的非線性譜映射單通道語音分離的最大似然法。簡單說來,這一方法是基於概率模型對海量語料數據進行深度學習,從而實現高清晰度與高效的語音分離工作,同時由於計算量的降低,它還具備更出色的泛用性,能夠適用於更多的場景,諸如語音增強、伴奏分離等。
此外,王燕南還針對深度學習演算法在應用中面臨的挑戰,如模型的魯棒性(在極低信噪比、數據失配等情況下的效果)、計算量優化的挑戰等內容,和與會專家進行了交流。

(騰訊多媒體實驗室專家研究員 王燕南)
名校師生Lab Tour,深度開展校企交流
會後,騰訊多媒體實驗室向澳大利亞國立大學、香港科技大學以及華南理工大學的師生髮出邀請,一同前往騰訊多媒體實驗室參觀訪問,並就未來進一步展開校企合作進行了熱烈的探索與討論。
目前,僅在音頻領域,多媒體實驗室所打造的包括唱歌修音、語音增強、端到端音頻評估等解決方案,已在騰訊公司內外的眾多產品中進行應用。此外,多媒體實驗室有近50項提案被下一代影片編碼標準VVC/H.266採納。在虛擬現實(VR)、點雲(PCC)、網路傳輸協議 (DASH)、多媒體系統(OMAF、CMAF、NBMP)等相關多媒體標準中,也取得了突破性進展,獲得多項標準核心專利,多名團隊成員在多個全球標準組織擔任董事、編輯、領域主席等重要席位。與此同時,多媒體實驗室也大力投入國家自主標準建設,成為國際行業標準不可忽視的影響者。