論文翻譯:2022_Time-Frequency Attention for Monaural Speech Enhancement

論文地址:單耳語音增強的時頻注意

引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856.


摘要

  大多數語音增強研究通常沒有明確考慮語音在時頻(t -f)表示中的能量分佈,這對於準確預測掩模或頻譜具有重要意義。在本文中,我們提出了一個簡單而有效的T-F注意(TFA)模塊,該模塊產生了一個二維attention map,為T-F表示的譜分量提供了差異化的權重。為了驗證我們提出的TFA模塊的有效性,我們使用殘差時間卷積網絡(ResTCN)作為骨幹網絡,並在兩個常用的訓練目標上進行了廣泛的實驗。我們的實驗表明,應用我們的TFA模塊在五個客觀評價指標方面顯著提高性能,而參數開銷可以忽略不計。評估結果表明,提出的帶TFA模塊的ResTCN (ResTCN+TFA)始終在很大程度上優於其他基線。

索引術語:語音增強,時頻注意,能量分佈,時間卷積網絡(temporal convolutional network)

1  引用

  語音增強是指在存在背景噪聲的情況下對語音信號進行增強。它是許多語音處理應用的基本組成部分,如自動語音識別、說話人識別、助聽器和電話會議。基於統計模型的語音增強[1-3]已經被廣泛研究了幾十年,該方法對平穩噪聲有很好的增強效果,但對非平穩噪聲[4]的增強效果不佳。

  基於監督深度學習的語音增強技術已經取得了顯著的進展。根據對輸入信號的處理方式,現有方法可以分為兩類。時域方法直接對語音波形進行語音增強,其中DNN被優化以學習從帶噪語音波形到純凈語音波形的映射[5,6]。時頻域(T-F)域方法通常訓練DNN預測純凈語音或T-F掩碼的頻譜表示。目前最流行的T-F掩模包括理想比例掩模(IRM)[7]、相敏掩模(PSM)[8]和複數IRM (cIRM)[9]。在本研究中,我們採用IRM和PSM進行語音增強。

  在早期的研究中,多層感知器(MLPs)是應用最廣泛的架構,但它們在捕獲長期依賴方面存在局限性。為了克服這一局限性,Chen等人[10]採用四層長短期記憶(LSTM)的遞歸神經網絡(RNN)進行語音增強,明顯優於MLPs。然而,LSTM網絡的訓練過程緩慢而複雜,並且需要大量的參數,這嚴重限制了它的適用性。最近,利用擴張卷積和剩餘跳躍連接的剩餘時間卷積網絡(ResTCNs)[11]在建模長期依賴關係方面表現出了令人印象深刻的性能,並在語音增強方面取得了相當大的成功[12 14]。近年來,基於自注意的Transformer[15]模型已成功地應用於語音增強和許多其他與語音處理相關的任務,因為它們具有捕獲遠程依賴關係的能力。

  現有的模型主要關注如何有效地對長程依賴進行建模,而一般忽略了T-F表示中語音的能量分佈特徵,而T-F表示對語音增強同樣重要。注意力機制[16 18]已被充分研究,以了解什麼對學習任務是重要的。受注意力的啟發,我們提出了一種新的結構單元,稱為T-F注意力(TFA)模塊,用於模擬語音的能量分佈。具體而言,TFA模塊由兩個平行的注意分支組成,即時間維(TA)和頻率維(FA)[19],它們產生兩個1-D attention map,分別指導模型關注何處(哪個時間框架)和什麼(哪個頻率通道)。結合TA和FA模塊生成二維注意力圖,使模型能夠捕捉T-F域的語音分佈。為了驗證這一想法,我們使用最新的ResTCN架構作為骨幹網絡,並採用兩個代表性的訓練目標(將在第2節中討論)進行廣泛的實驗。

  本文的其餘部分組織如下。第二節介紹了T-F域語音增強技術。在第3節中,我們描述了擬議的網絡。第4節介紹了實驗裝置和評估結果。第5部分對本文進行了總結。

2  問題公式化

  在短時傅里葉變換(STFT)域中,帶噪語音可以被建模為純凈語音和加性噪聲的組合

$$公式1:X[l,k]=S[l,k]+D[l,k]$$

其中$X[l,k]$, $S[l, k]$和$D[l, k]$分別表示帶噪語音、純凈語音和噪聲在時間幀$l$和頻率bin $k$的STFT係數。對於有監督的語音增強,通常訓練DNN來預測預先設計的訓練目標。然後應用該結果重建純凈的語音。為了驗證我們提出的TFA模塊的有效性,我們採用兩個廣泛使用的訓練目標進行廣泛的增強實驗。詳情如下:

  理想比值掩模( ideal ratio mask,IRM)[7]的定義為:

$$公式2:\operatorname{IRM}[l, k]=\sqrt{\frac{|S[l, k]|^{2}}{|S[l, k]|^{2}+|D[l, k]|^{2}}}$$

式中$|S[l, k]|$和$|D[l, k]|$分別為純凈語音和噪聲的頻譜大小。

  相敏掩模(phase-sensitive mask,PSM)[8]是根據純凈和帶噪語音的STFT幅值定義的。引入一個相位誤差項來補償對帶噪聲語音相位的利用

$$公式3:\operatorname{PSM}[l, k]=\frac{|S[l, k]|}{|X[l, k]|} \cos \left[\theta_{S[l, k]-X[l, k]}\right]$$

式中$\theta_{S[l,k]-X[l,k]}$表示純凈語音與帶噪語音之間的相位差。PSM被截斷到0到1之間,以擬合sigmoid激活函數的輸出範圍。

3  TF-Attention的語音增強

3.1  網絡結構

  圖1(a)展示了ResTCN骨幹網[12]的結構,它以帶噪語音$|X|]\in R^{L*K}$的STFT幅值作為輸入。輸出層為全連接層,具有sigmoidal激活函數,產生輸出掩碼 (IRM或PSM)。圖1(b)顯示了我們如何將TFA模塊插入到ResTCN塊中。ResTCN塊(如圖1 (a)的黑色虛線框所示)包含三個1-D因果擴張卷積單元。每個卷積單元中的參數表示為kernel size、filter nums和dilation rate。循環dilation rate為塊索引$b=\{1,2,3,…B\}$增大:$d=2^{(b-1mod(log_2(D)+1))}$,其中mod為取模運算,D = 16為最大dilation rate。每個卷積單元都採用預激活設計,其中輸入通過frame-wise alization (LN)和ReLU激活函數進行預激活。

圖1所示  (a) ResTCN骨幹網和(b)我們提出的帶有TFA模塊的ResTCN塊

3.2  TF注意力模塊

圖2所示。我們提出的TFA模塊示意圖,其中TA和FA模塊分別顯示在黑色和藍色的點框中。AvgPool和Conv1D分別表示平均池化和1-D卷積操作。$\otimes $和$\odot $分別表示矩陣乘法和元素級積

  在圖2中,我們說明了提出的TFA模塊。我們將變換後的T-F表示Y RL dmodel作為L幀和dmodel頻率通道的輸入。TFA利用兩個分支並行生成1- d頻率維attention map FA R1 dmodel和1- d時間幀attention map TA RL 1,再結合矩陣乘法得到最終的2-D T-Fattention map TFA RL dmodel。改進後的輸出寫為

$$公式4:\tilde{\mathbf{Y}}=\mathbf{Y} \odot \mathbf{T F}_{\boldsymbol{A}}$$

其中$\odot $表示逐元素乘積。下面給出了提議的 TFA 的詳細描述。

  語音在時間和頻率維度上的能量分佈是生成準確attention map的關鍵。每個Attention分支生成attention map分兩步:全局信息聚合和Attention生成。具體來說,FA模塊在給定的輸入Y上沿時間維度進行全局平均池化,並生成frequency-wise統計$Z_F\in R^{1*d_{model}}$,公式為:

$$公式5:\mathbf{Z}_{\mathbf{F}}(k)=\frac{1}{L} \sum_{l=1}^{L} \mathbf{Y}(l, k)$$

其中$Z^F(k)$是$Z_F$的第k個元素,同樣的,TA模塊沿着輸入X的頻率維度進行全局平均池化,並生成一個基於time-frame-wise的統$Z_T\in R^{L*1}$。$Z_T$的第$l$個元素可以寫成:

$$公式6:\mathbf{Z}_{\mathbf{T}}(l)=\frac{1}{d_{\text {model }}} \sum_{k=1}^{d_{\text {model }}} \mathbf{Y}(l, k)$$

  兩個統計量$Z_T$和$Z_F$分別可以看作是語音能量在時間維度和頻率維度上的分佈。為了充分利用這兩種描述符產生準確的Attention權值,我們堆疊兩個一維卷積層$k_{tfa}=17$作為非線性變換函數。FA模塊的Attention具體計算為

$$公式7:\mathbf{F}_{\mathbf{A}}=\sigma\left(f_{2}^{F A}\left(\delta\left(f_{1}^{F A}\left(\mathbf{Z}_{\mathbf{F}}\right)\right)\right)\right)$$

式中$f$為1-D卷積運算,$\delta$和$ \sigma $分別為ReLU和sigmoid激活函數。在TA模塊中採用相同的計算過程生成Attention map:

$$公式8:\mathbf{T}_{\mathbf{A}}=\sigma\left(f_{2}^{T A}\left(\delta\left(f_{1}^{T A}\left(\mathbf{Z}_{\mathbf{T}}\right)\right)\right)\right)$$

然後,將從兩個注意分支獲得的Attention map與張量乘法相結合,產生最終的2-D Attention map TFA

$$公式9:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}} \otimes \mathbf{F}_{\mathbf{A}}$$

其中$\otimes $表示張量乘法運算。最終二維 Attention map TFA的計算公式為:

$$公式10:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}}(l)*\mathbf{F}_{\mathbf{A}}(l)$$

其中$T_A(l)$和$F_A(k)$分別表示$T_A$的第$l$個元素,和$F_A$的第k個元素。

4  實驗

4.1  數據集和特徵提取

  我們使用Librispeech[20]語料庫中的train-clean-100作為訓練集中的純凈語音,包括251個說話人的28539個語音。訓練集中使用的噪聲來自以下數據集:QUT-NOISE數據集[21],非語音數據集[22],環境背景噪聲數據集[23,24],RSG-10數據集[25](語音babble, F16,和工廠焊接除外進行測試),Urban Sound數據集[26](街頭音樂記錄no.[26])。26 270被排除用於測試)、MUSAN語料庫[27]的噪聲集和彩色噪聲(α值從2到2,以0.25為增量)。總共有6 909個噪音。對於驗證集,我們隨機選擇1 000條純凈的語音和噪音錄音(不替換),並將其從前述的純凈語音和噪音集中移除。每個純凈語音與一個噪聲記錄的隨機部分混合,隨機信噪比在-10 dB到20 dB之間,以1dB的增量產生1 000個噪聲語音作為驗證集。對於測試集,我們使用從RSG-10數據集[25]和Urban Sound數據集[26]中排除的四種真實世界的噪音記錄(嘈雜聲、F16、工廠焊接和街頭音樂)。從Librispeech語料庫[20]的test-clean-100中隨機選擇10條純凈的語音錄音(沒有替換),對每一條錄音進行以下信噪比級別的混合:{-5 dB, 0 dB, 5 dB, 10 dB, 15 dB}。這將生成一個包含200段帶噪聲語音錄音的測試集。所有純凈的語音和噪聲錄音都是單通道的,採樣頻率為16khz。

  採用平方根-Hann窗函數進行譜分析和合成,幀長為32 ms,幀移為16 ms。帶噪語音的257頻點作為輸入,該幅譜包含直流頻率分量和奈奎斯特頻率分量。

4.2  實驗步驟

  使用ResTCN模型作為基準骨幹來驗證我們的TFA模塊的有效性。此外,我們還採用了兩個最新的模型作為基線,即具有自我注意的ResTCN (ResTCN+SA)[28]和多頭自我注意網絡(MHANet)[29]。ResTCN基線使用以下參數,如[12],k = 3, $d_{model}$= 256, $d_f$ = 64, B = 40。ResTCN+SA[28]採用多頭自我注意模塊產生動態表示,然後採用ResTCN模型(採用B = 40個堆疊基線的ResTCN塊構建ResTCN模型進行公平比較)進行非線性映射。MHANet模型[29]使用5層堆疊的Transformer編碼器[15]進行語音增強,參數設置如[29]。為了驗證TFA模塊中FA和TA成分的有效性,我們進行了消融研究,其中使用FA和TA的ResTCN(稱為ResTCN+FA和ResTCN+TA)被評估。

  訓練方法:每個訓練迭代使用10個mini batch的帶噪語音。帶噪語音信號的創建方法如下:為mini batch選擇的每個純凈語音與隨機選擇的噪聲的隨機部分混合,信噪比隨機選擇(-10 dB到20 dB,以1 dB的增量)。以目標掩模與估計掩模之間的均方誤差(MSE)為目標函數。對於ResTCN、ResTCN+SA和提出的模型,使用默認超參數[30]和學習率0.001的Adam優化器進行梯度下降優化。由於MHANet難以訓練[29,31],我們採用[29]中的訓練策略。梯度裁剪應用於所有模型,其中梯度裁剪在[-1,1]之間。

4.3  訓練和驗證誤差

  圖3-4給出了每個模型對150 epoch訓練產生的訓練和驗證誤差曲線。可以看到,與ResTCN相比,帶有我們提出的TFA的ResTCN (ResTCN+TFA)產生了顯著較低的訓練和驗證錯誤,這證實了TFA模塊的有效性。同時,與ResTCN+SA和MHANet相比,ResTCN+TFA的訓練和驗證誤差最低,具有明顯的優越性。在三條基線中,MHANet性能最好,ResTCN+SA優於ResTCN。此外,通過對ResTCN、ResTCN+FA和ResTCN+TA的比較,驗證了TA和FA模塊的有效性。

圖3所示。訓練誤差(a)和驗證誤差(b)在IRM訓練目標上的曲線

圖4所示。訓練誤差(a)和驗證誤差(b)在PSM訓練目標上的曲線

4.4  結果和討論

  本研究採用5個指標廣泛評估增強性能,包括寬帶語音質量感知評價(PESQ)[32]、擴展短時間目標可理解性(esti)[33]和3個複合指標[34],即信號失真的平均意見評分(MOS)預測指標(CSIG)、背景噪聲入侵(CBAK)和整體信號質量(COVL)。

  表1和2分別給出了每個信噪比水平(橫跨四個噪聲源)的平均PESQ和esti得分。評估結果表明,我們提出的ResTCN+TFA在IRM和PSM上的PESQ和ESTOI均比ResTCN取得了顯著的改進,參數開銷可以忽略不計,證明了TFA模塊的有效性。例如,在5 dB SNR的情況下,帶IRM的ResTCN+TFA在PESQ上提高了基線ResTCN 0.18,在ESTOI上提高了4.94%。與MHANet和ResTCN+SA相比,ResTCN+TFA在所有情況下均表現出最佳性能,表現出明顯的性能優勢。在三條基線中,總體而言,績效排名依次為MHANet >ResTCN + SA>ResTCN。同時,ResTCN+FA和ResTCN+TA也在ResTCN的基礎上做了較大的改進,這也驗證了FA和TA模塊的有效性。表3列出了所有測試條件下CSIG、CBAK和COVL的平均得分。表1和表2中也觀察到了類似的性能趨勢。同樣,我們提出的ResTCN+TFA在三個指標上明顯優於ResTCN,並且在所有模型中表現最好。平均而言,與ResTCN+TFA和PSM相比,CSIG提高了0.21,CBAK提高了0.12,COVL提高了0.18。與MHANet相比,採用PSM的ResTCN+TFA使CSIG提高0.12,CBAK提高0.08,COVL提高0.11。

5  結論

  在本研究中,我們提出了一種輕量級和靈活的注意單元,稱為TFA模塊,旨在模擬T-F表示中語音的能量分佈。在兩個訓練目標(IRM和PSM)上以ResTCN為骨幹的大量實驗證明了所提出的TFA模塊的有效性。在所有的模型中,我們提出的ResTCN+TFA始終表現最佳,並在所有情況下顯著優於其他基線。未來的研究工作包括調查TFA在更多架構(例如最近的Transformer)和更多培訓目標上的有效性。

參考文獻

[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013.

[2] Q. Zhang, M. Wang, Y. Lu, L. Zhang, and M. Idrees, A novel fast nonstationary noise tracking approach based on mmse spectral power estimator, Digital Signal Processing, vol. 88, pp. 41 52, 2019.

[3] Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoust. , Speech, Signal Process. , vol. ASSP-32, no. 6, pp. 1109 1121, Dec. 1984.

[4] Q. Zhang, M. Wang, Y. Lu, M. Idrees, and L. Zhang, Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging, IEEE Access, vol. 7, pp. 80 985 80 999, 2019.

[5] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, Proc. INTERSPEECH, pp. 3642 3646, 2017.

[6] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 8, pp. 1256 1266, 2019.

[7] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 22, no. 12, pp. 1849 1858, 2014.

[8] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. ICASSP, 2015, pp. 708 712.

[9] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 3, pp. 483 492, 2015.

[10] J. Chen and D. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[11] S. Bai, J. Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.

[12] Q. Zhang, A. Nicolson, M. Wang, K. K. Paliwal, and C. Wang, DeepMMSE: A deep learning approach to mmse-based noise power spectral density estimation, IEEE/ACM Trans. Audio,  speech, Lang. Process. , vol. 28, pp. 1404 1415, 2020.

[13] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 1, pp. 189 198, 2018.

[14] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. ICASSP, 2019, pp. 6875 6879.

[15] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention is all you need, in Proc. NIPS, 2017, pp. 5998 6008.

[16] J. Hu, L. Shen, and G. Sun, Squeeze-and-excitation networks, in Proc. CVPR, 2018, pp. 7132 7141.

[17] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, CBAM: Convolutional block attention module, in Proc. ECCV, 2018, pp. 3 19.

[18] V. A. Trinh, B. McFee, and M. I. Mandel, Bubble cooperative networks for identifying important speech cues, Interspeech 2018, 2018.

[19] Q. Zhang, Q. Song, A. Nicolson, T. Lan, and H. Li, Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement, in Proc. Interspeech 2021, 2021, pp. 166 170.

[20] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in Proc. ICASSP, 2015, pp. 5206 5210.

[21] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms, in Proc. INTERSPEECH, 2010.

[22] G. Hu, 100 nonspeech environmental sounds, The Ohio State University, Department of Computer Science and Engineering, 2004.

[23] F. Saki, A. Sehgal, I. Panahi, and N. Kehtarnavaz, Smartphone-based real-time classification of noise signals using subband features and random forest classifier, in Proc. ICASSP, 2016, pp. 2204 2208.   

[24] F. Saki and N. Kehtarnavaz, Automatic switching between noise classification and speech enhancement for hearing aid devices, in Proc. EMBC, 2016, pp. 736 739.

[25] H. J. Steeneken and F. W. Geurtsen, Description of the rsg-10 noise database, report IZF, vol. 3, p. 1988, 1988. [26] J. Salamon, C. Jacoby, and J. P. Bello, A dataset and taxonomy for urban sound research, in Proc. ACM-MM, 2014, pp. 1041 1044.

[27] D. Snyder, G. Chen, and D. Povey, MUSAN: A music, speech, and noise corpus, arXiv preprint arXiv:1510.08484, 2015.

[28] Y. Zhao, D. Wang, B. Xu, and T. Zhang, Monaural speech dereverberation using temporal convolutional networks with self attention,  IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1598 1607, 2020.

[29] A. Nicolson and K. K. Paliwal, Masked multi-head selfattention for causal speech enhancement, Speech Communication, vol. 125, pp. 80 96, 2020.

[30] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [31] L. Liu, X. Liu, J. Gao, W. Chen, and J. Han, Understanding the difficulty of training transformers, in Proc. EMNLP, 2020, pp. 5747 5763.

[32] R. I.-T. P. ITU, 862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunication standardization sector, 2007.

[33] J. Jensen and C. H. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 11, pp. 2009 2022, 2016.

[34] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Trans. Audio, Speech, Lang. process. , vol. 16, no. 1, pp. 229 238, 2007.