AliSSR 語音超分算法:讓在線會議語音更明亮更自然
超分讓在線會議語音更明亮,在線會議已成為日常工作中較為普遍的溝通交流方式,接入會議的方式也呈現多樣化,比如電腦入會、手機入會又或是電話入會。
雪雅、曜辰|作者
眾所周知,高採樣率且高帶寬的音頻信號富含豐富的頻率成分,能夠帶給人們更身臨其境的聽覺體驗。但在線會議中,電話入會又或是因設備等原因導致原始採集帶寬過低的場景中,帶給人們的直觀感受表現為聽對方說話比較悶,嚴重影響會議體驗。在信號處理中,語音超分技術可以用來處理這類情況,它可以最大限度地從低帶寬的音頻信號中重建出其高頻成分,讓語音信號聽起來更「明亮、逼真」,從而為客戶提供更出色更高音質的通話體驗。下面是一個簡單的效果演示:
作者註:視頻中前半部分是窄帶信號,後半部分是超分後的寬帶信號。
語音超分技術的早期研究多圍繞傳統信號處理理論展開,如源濾波器模型,通過 codebook 映射或者線性映射的方法來預測高頻帶頻譜包絡 [1, 2]。近些年隨着深度學習技術在信號處理領域的應用,語音超分技術在深度學習的加持下,效果獲得了明顯的提升。
最開始,延續了傳統信號處理框架,神經網絡替換原有框架的一部分,用來預測高頻帶的譜包絡或者幅度譜 [3, 4],相位擴展沿用傳統的方法,保持計算複雜度低的優勢 [1],然而相位信息對於人耳主觀聽感有着不可忽略的影響。
隨後,受圖像超分辨率算法的啟發,基於端到端的神經網絡模型應用到了語音超分任務 [5, 6],它直接在時域上對信號完成了預測,避免了相位問題,這些方法都是通過最小化某個損失函數(如 L2 loss) 來訓練的,後來,引入了 GAN 的訓練方式,結合原有的損失函數和對抗損失,達到了更好的效果 [7, 8]。
當前,我們主要針對採樣率從 8KHz 提高到 16KHz 的情況(頻譜帶寬從 4KHz 擴展到 8KHz)。
語音超分算法:AliSSR
基於神經網絡的語音超分算法近幾年來取得了不錯的超分效果,但其中很多算法都是雙非算法(非實時非因果),同時往往涉及較大的參數量和計算量,難以在實際應用場景中部署。阿里雲視頻雲音頻技術團隊基於上述實際問題,研發了兩種實時因果的語音超分算法:AliSSR(e2e 版本)和 AliSSR(lightweight 版本),在擁有較少參數量和較低延時的同時,保持其高質量的語音超分效果。
1. 算法原理簡介
A. AliSSR(e2e 版本):是基於端到端的 encoder-decoder 模型。該模型結合實際應用場景,充分考慮了編解碼、下採樣所帶來的損失,並結合 GAN 相關的訓練技巧,提升帶寬拓展的效果;
B. AliSSR(lightweight 版本):傳統信號處理與深度學習結合的算法模型。該模型簡單易拓展,資源消耗較小。
音頻技術團隊研發的基於神經網絡的語音超分算法無需額外數據傳輸, 可以實時流式地對窄帶語音信號進行高質量地帶寬拓展。
2. 算法性能
3. 應用場景
在某些低帶寬的場景中 , 例如在 PSTN 場景中,往往感覺對方聲音很 「悶」,這主要是由於發送端傳輸的語音信號採樣率低,沒有高頻成分的語音信息。語音超分技術通過重建語音的高頻成分,為客戶提供更高音質、更出色的通話聽覺體驗。語音超分常用的使用場景如下表所示。
4. 超分效果顯示
AliSSR 實時超分算法支持多語種、多性別。下面分別對男生英文和女生中文測試語料的超分前後效果進行展示,主觀聽感層面,超分之後的語音明顯比窄帶音頻要更 「明亮」,其中 AliSSR(e2e 版本)超分後明亮度要比 AliSSR(lightweight 版本)更好。
樣本 1:英文
視頻中的三段音頻分別是:窄帶語音、AliSSR 實時處理後的 e2e 版本和 lightweight 版本
樣本 2:中文
視頻中的三段音頻分別是:窄帶語音、AliSSR 實時處理後的 e2e 版本和 lightweight 版本
語音超分技術在 PSTN、在線會議、老舊音頻修復以及媒體生產等領域,有着較為廣泛的落地場景。AliSSR 語音超分算法在神經網絡的助力下,僅需極少的資源消耗,即可實時地給用戶帶來更「明亮、逼真」的音質體驗。未來,音頻技術將會繼續鑄造更強的超分能力,探索從窄帶到全頻帶、從語音到音樂再到全類音頻的全場景覆蓋的超分技術。
阿里雲視頻雲音頻技術團隊將繼續探索基於深度學習 + 信號處理的的音頻技術,為在線會議等場景提供更清晰更極致的音頻體驗。
參考文獻
[1] J.Makhoul, M.Berouti, 「High-frequency regen-eration in speech coding systems」, in Proceedings of ICASSP, 1979, vol. 4, pp. 428–431.
[2] B. Iser, G. Schmidt, 「Neural networks versus codebooks inan application for bandwidth extension of speech signals,」 in Proc. of Interspeech, 2003
[3] Kehuang Li, Chin-Hui Lee, 「A deep neural networkapproach to speech bandwidth expansion」, in Proceedings of ICASSP, 2015, pp. 4395–4399.
[4] J. Abel, T. Fingscheidt, 「Artificial speech band-width extension using deep neural networks for wide-band spectral envelope estimation」, IEEE Transactionson Acoustics, Speech, and Signal Processing, vol. 26,no. 1, pp. 71–83, 2017
[5] V. Kuleshov, S.Z. Enam, and S. Ermon, 「Audio super resolution using neural nets」, in Workshop of ICLR, 2017.
[6] Heming Wang, Deliang Wang, “Time-frequency loss for CNN based speech super-resolution”, in Proceedings of ICASSP, 2020.
[7] Eskimez, Sefik Emre et al. 「Adversarial Training for Speech Super-Resolution.」 IEEE Journal of Selected Topics in Signal Processing 13 (2019): 347-358.
[8] Li, Y., Tagliasacchi, M., Rybakov, “Real-Time Speech Frequency Bandwidth Extension”, ICASSP, 2021.
「視頻雲技術」你最值得關注的音視頻技術公眾號,每周推送來自阿里雲一線的實踐技術文章,在這裡與音視頻領域一流工程師交流切磋。公眾號後台回復【技術】可加入阿里雲視頻雲產品技術交流群,和業內大咖一起探討音視頻技術,獲取更多行業最新信息。