論文翻譯：2022_Time-Frequency Attention for Monaural Speech Enhancement

2022 年 8 月 4 日
筆記
語音增強(SE)

引用格式：Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856.

摘要

　　大多數語音增強研究通常沒有明確考慮語音在時頻(t -f)表示中的能量分佈，這對於準確預測掩模或頻譜具有重要意義。在本文中，我們提出了一個簡單而有效的T-F注意(TFA)模塊，該模塊產生了一個二維attention map，為T-F表示的譜分量提供了差異化的權重。為了驗證我們提出的TFA模塊的有效性，我們使用殘差時間卷積網絡(ResTCN)作為骨幹網絡，並在兩個常用的訓練目標上進行了廣泛的實驗。我們的實驗表明，應用我們的TFA模塊在五個客觀評價指標方面顯著提高性能，而參數開銷可以忽略不計。評估結果表明，提出的帶TFA模塊的ResTCN (ResTCN+TFA)始終在很大程度上優於其他基線。

索引術語：語音增強，時頻注意，能量分佈，時間卷積網絡(temporal convolutional network)

1 引用

　　語音增強是指在存在背景噪聲的情況下對語音信號進行增強。它是許多語音處理應用的基本組成部分，如自動語音識別、說話人識別、助聽器和電話會議。基於統計模型的語音增強[1-3]已經被廣泛研究了幾十年，該方法對平穩噪聲有很好的增強效果，但對非平穩噪聲[4]的增強效果不佳。

　　基於監督深度學習的語音增強技術已經取得了顯著的進展。根據對輸入信號的處理方式，現有方法可以分為兩類。時域方法直接對語音波形進行語音增強，其中DNN被優化以學習從帶噪語音波形到純凈語音波形的映射[5,6]。時頻域(T-F)域方法通常訓練DNN預測純凈語音或T-F掩碼的頻譜表示。目前最流行的T-F掩模包括理想比例掩模(IRM)[7]、相敏掩模(PSM)[8]和複數IRM (cIRM)[9]。在本研究中，我們採用IRM和PSM進行語音增強。

　　在早期的研究中，多層感知器(MLPs)是應用最廣泛的架構，但它們在捕獲長期依賴方面存在局限性。為了克服這一局限性，Chen等人[10]採用四層長短期記憶(LSTM)的遞歸神經網絡(RNN)進行語音增強，明顯優於MLPs。然而，LSTM網絡的訓練過程緩慢而複雜，並且需要大量的參數，這嚴重限制了它的適用性。最近，利用擴張卷積和剩餘跳躍連接的剩餘時間卷積網絡(ResTCNs)[11]在建模長期依賴關係方面表現出了令人印象深刻的性能，並在語音增強方面取得了相當大的成功[12 14]。近年來，基於自注意的Transformer[15]模型已成功地應用於語音增強和許多其他與語音處理相關的任務，因為它們具有捕獲遠程依賴關係的能力。

　　現有的模型主要關注如何有效地對長程依賴進行建模，而一般忽略了T-F表示中語音的能量分佈特徵，而T-F表示對語音增強同樣重要。注意力機制[16 18]已被充分研究，以了解什麼對學習任務是重要的。受注意力的啟發，我們提出了一種新的結構單元，稱為T-F注意力(TFA)模塊，用於模擬語音的能量分佈。具體而言，TFA模塊由兩個平行的注意分支組成，即時間維(TA)和頻率維(FA)[19]，它們產生兩個1-D attention map，分別指導模型關注何處(哪個時間框架)和什麼(哪個頻率通道)。結合TA和FA模塊生成二維注意力圖，使模型能夠捕捉T-F域的語音分佈。為了驗證這一想法，我們使用最新的ResTCN架構作為骨幹網絡，並採用兩個代表性的訓練目標(將在第2節中討論)進行廣泛的實驗。

　　本文的其餘部分組織如下。第二節介紹了T-F域語音增強技術。在第3節中，我們描述了擬議的網絡。第4節介紹了實驗裝置和評估結果。第5部分對本文進行了總結。

2 問題公式化

　　在短時傅里葉變換(STFT)域中，帶噪語音可以被建模為純凈語音和加性噪聲的組合

$$公式1：X[l,k]=S[l,k]+D[l,k]$$

其中$X[l,k]$， $S[l, k]$和$D[l, k]$分別表示帶噪語音、純凈語音和噪聲在時間幀$l$和頻率bin $k$的STFT係數。對於有監督的語音增強，通常訓練DNN來預測預先設計的訓練目標。然後應用該結果重建純凈的語音。為了驗證我們提出的TFA模塊的有效性，我們採用兩個廣泛使用的訓練目標進行廣泛的增強實驗。詳情如下：

　　理想比值掩模( ideal ratio mask，IRM)[7]的定義為：

$$公式2：\operatorname{IRM}[l, k]=\sqrt{\frac{|S[l, k]|^{2}}{|S[l, k]|^{2}+|D[l, k]|^{2}}}$$

式中$|S[l, k]|$和$|D[l, k]|$分別為純凈語音和噪聲的頻譜大小。

　　相敏掩模(phase-sensitive mask，PSM)[8]是根據純凈和帶噪語音的STFT幅值定義的。引入一個相位誤差項來補償對帶噪聲語音相位的利用

$$公式3：\operatorname{PSM}[l, k]=\frac{|S[l, k]|}{|X[l, k]|} \cos \left[\theta_{S[l, k]-X[l, k]}\right]$$

式中$\theta_{S[l,k]-X[l,k]}$表示純凈語音與帶噪語音之間的相位差。PSM被截斷到0到1之間，以擬合sigmoid激活函數的輸出範圍。

3 TF-Attention的語音增強

3.1 網絡結構

　　圖1(a)展示了ResTCN骨幹網[12]的結構，它以帶噪語音$|X|]\in R^{L*K}$的STFT幅值作為輸入。輸出層為全連接層，具有sigmoidal激活函數，產生輸出掩碼 (IRM或PSM)。圖1(b)顯示了我們如何將TFA模塊插入到ResTCN塊中。ResTCN塊(如圖1 (a)的黑色虛線框所示)包含三個1-D因果擴張卷積單元。每個卷積單元中的參數表示為kernel size、filter nums和dilation rate。循環dilation rate為塊索引$b=\{1,2,3,…B\}$增大：$d=2^{(b-1mod(log_2(D)+1))}$，其中mod為取模運算，D = 16為最大dilation rate。每個卷積單元都採用預激活設計，其中輸入通過frame-wise alization (LN)和ReLU激活函數進行預激活。

圖1所示 (a) ResTCN骨幹網和(b)我們提出的帶有TFA模塊的ResTCN塊

3.2 TF注意力模塊

圖2所示。我們提出的TFA模塊示意圖，其中TA和FA模塊分別顯示在黑色和藍色的點框中。AvgPool和Conv1D分別表示平均池化和1-D卷積操作。$\otimes $和$\odot $分別表示矩陣乘法和元素級積

　　在圖2中，我們說明了提出的TFA模塊。我們將變換後的T-F表示Y RL dmodel作為L幀和dmodel頻率通道的輸入。TFA利用兩個分支並行生成1- d頻率維attention map FA R1 dmodel和1- d時間幀attention map TA RL 1，再結合矩陣乘法得到最終的2-D T-Fattention map TFA RL dmodel。改進後的輸出寫為

$$公式4：\tilde{\mathbf{Y}}=\mathbf{Y} \odot \mathbf{T F}_{\boldsymbol{A}}$$

其中$\odot $表示逐元素乘積。下面給出了提議的 TFA 的詳細描述。

　　語音在時間和頻率維度上的能量分佈是生成準確attention map的關鍵。每個Attention分支生成attention map分兩步：全局信息聚合和Attention生成。具體來說，FA模塊在給定的輸入Y上沿時間維度進行全局平均池化，並生成frequency-wise統計$Z_F\in R^{1*d_{model}}$，公式為：

$$公式5：\mathbf{Z}_{\mathbf{F}}(k)=\frac{1}{L} \sum_{l=1}^{L} \mathbf{Y}(l, k)$$

其中$Z^F(k)$是$Z_F$的第k個元素，同樣的，TA模塊沿着輸入X的頻率維度進行全局平均池化，並生成一個基於time-frame-wise的統$Z_T\in R^{L*1}$。$Z_T$的第$l$個元素可以寫成：

$$公式6：\mathbf{Z}_{\mathbf{T}}(l)=\frac{1}{d_{\text {model }}} \sum_{k=1}^{d_{\text {model }}} \mathbf{Y}(l, k)$$

　　兩個統計量$Z_T$和$Z_F$分別可以看作是語音能量在時間維度和頻率維度上的分佈。為了充分利用這兩種描述符產生準確的Attention權值，我們堆疊兩個一維卷積層$k_{tfa}=17$作為非線性變換函數。FA模塊的Attention具體計算為

$$公式7：\mathbf{F}_{\mathbf{A}}=\sigma\left(f_{2}^{F A}\left(\delta\left(f_{1}^{F A}\left(\mathbf{Z}_{\mathbf{F}}\right)\right)\right)\right)$$

式中$f$為1-D卷積運算，$\delta$和$ \sigma $分別為ReLU和sigmoid激活函數。在TA模塊中採用相同的計算過程生成Attention map：

$$公式8：\mathbf{T}_{\mathbf{A}}=\sigma\left(f_{2}^{T A}\left(\delta\left(f_{1}^{T A}\left(\mathbf{Z}_{\mathbf{T}}\right)\right)\right)\right)$$

然後，將從兩個注意分支獲得的Attention map與張量乘法相結合，產生最終的2-D Attention map TFA

$$公式9：\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}} \otimes \mathbf{F}_{\mathbf{A}}$$

其中$\otimes $表示張量乘法運算。最終二維 Attention map TFA的計算公式為:

$$公式10：\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}}(l)*\mathbf{F}_{\mathbf{A}}(l)$$

其中$T_A(l)$和$F_A(k)$分別表示$T_A$的第$l$個元素，和$F_A$的第k個元素。

4 實驗

4.1 數據集和特徵提取

　　我們使用Librispeech[20]語料庫中的train-clean-100作為訓練集中的純凈語音，包括251個說話人的28539個語音。訓練集中使用的噪聲來自以下數據集：QUT-NOISE數據集[21]，非語音數據集[22]，環境背景噪聲數據集[23,24]，RSG-10數據集[25](語音babble, F16，和工廠焊接除外進行測試)，Urban Sound數據集[26](街頭音樂記錄no.[26])。26 270被排除用於測試)、MUSAN語料庫[27]的噪聲集和彩色噪聲(α值從2到2，以0.25為增量)。總共有6 909個噪音。對於驗證集，我們隨機選擇1 000條純凈的語音和噪音錄音(不替換)，並將其從前述的純凈語音和噪音集中移除。每個純凈語音與一個噪聲記錄的隨機部分混合，隨機信噪比在-10 dB到20 dB之間，以1dB的增量產生1 000個噪聲語音作為驗證集。對於測試集，我們使用從RSG-10數據集[25]和Urban Sound數據集[26]中排除的四種真實世界的噪音記錄(嘈雜聲、F16、工廠焊接和街頭音樂)。從Librispeech語料庫[20]的test-clean-100中隨機選擇10條純凈的語音錄音(沒有替換)，對每一條錄音進行以下信噪比級別的混合：{-5 dB, 0 dB, 5 dB, 10 dB, 15 dB}。這將生成一個包含200段帶噪聲語音錄音的測試集。所有純凈的語音和噪聲錄音都是單通道的，採樣頻率為16khz。

　　採用平方根-Hann窗函數進行譜分析和合成，幀長為32 ms，幀移為16 ms。帶噪語音的257頻點作為輸入，該幅譜包含直流頻率分量和奈奎斯特頻率分量。

4.2 實驗步驟

　　使用ResTCN模型作為基準骨幹來驗證我們的TFA模塊的有效性。此外，我們還採用了兩個最新的模型作為基線，即具有自我注意的ResTCN (ResTCN+SA)[28]和多頭自我注意網絡(MHANet)[29]。ResTCN基線使用以下參數，如[12]，k = 3, $d_{model}$= 256, $d_f$ = 64, B = 40。ResTCN+SA[28]採用多頭自我注意模塊產生動態表示，然後採用ResTCN模型(採用B = 40個堆疊基線的ResTCN塊構建ResTCN模型進行公平比較)進行非線性映射。MHANet模型[29]使用5層堆疊的Transformer編碼器[15]進行語音增強，參數設置如[29]。為了驗證TFA模塊中FA和TA成分的有效性，我們進行了消融研究，其中使用FA和TA的ResTCN(稱為ResTCN+FA和ResTCN+TA)被評估。

　　訓練方法：每個訓練迭代使用10個mini batch的帶噪語音。帶噪語音信號的創建方法如下：為mini batch選擇的每個純凈語音與隨機選擇的噪聲的隨機部分混合，信噪比隨機選擇(-10 dB到20 dB，以1 dB的增量)。以目標掩模與估計掩模之間的均方誤差(MSE)為目標函數。對於ResTCN、ResTCN+SA和提出的模型，使用默認超參數[30]和學習率0.001的Adam優化器進行梯度下降優化。由於MHANet難以訓練[29,31]，我們採用[29]中的訓練策略。梯度裁剪應用於所有模型，其中梯度裁剪在[-1,1]之間。

4.3 訓練和驗證誤差

　　圖3-4給出了每個模型對150 epoch訓練產生的訓練和驗證誤差曲線。可以看到，與ResTCN相比，帶有我們提出的TFA的ResTCN (ResTCN+TFA)產生了顯著較低的訓練和驗證錯誤，這證實了TFA模塊的有效性。同時，與ResTCN+SA和MHANet相比，ResTCN+TFA的訓練和驗證誤差最低，具有明顯的優越性。在三條基線中，MHANet性能最好，ResTCN+SA優於ResTCN。此外，通過對ResTCN、ResTCN+FA和ResTCN+TA的比較，驗證了TA和FA模塊的有效性。

圖3所示。訓練誤差(a)和驗證誤差(b)在IRM訓練目標上的曲線

圖4所示。訓練誤差(a)和驗證誤差(b)在PSM訓練目標上的曲線

4.4 結果和討論

　　本研究採用5個指標廣泛評估增強性能，包括寬帶語音質量感知評價(PESQ)[32]、擴展短時間目標可理解性(esti)[33]和3個複合指標[34]，即信號失真的平均意見評分(MOS)預測指標(CSIG)、背景噪聲入侵(CBAK)和整體信號質量(COVL)。

　　表1和2分別給出了每個信噪比水平(橫跨四個噪聲源)的平均PESQ和esti得分。評估結果表明，我們提出的ResTCN+TFA在IRM和PSM上的PESQ和ESTOI均比ResTCN取得了顯著的改進，參數開銷可以忽略不計，證明了TFA模塊的有效性。例如，在5 dB SNR的情況下，帶IRM的ResTCN+TFA在PESQ上提高了基線ResTCN 0.18，在ESTOI上提高了4.94%。與MHANet和ResTCN+SA相比，ResTCN+TFA在所有情況下均表現出最佳性能，表現出明顯的性能優勢。在三條基線中，總體而言，績效排名依次為MHANet >ResTCN + SA>ResTCN。同時，ResTCN+FA和ResTCN+TA也在ResTCN的基礎上做了較大的改進，這也驗證了FA和TA模塊的有效性。表3列出了所有測試條件下CSIG、CBAK和COVL的平均得分。表1和表2中也觀察到了類似的性能趨勢。同樣，我們提出的ResTCN+TFA在三個指標上明顯優於ResTCN，並且在所有模型中表現最好。平均而言，與ResTCN+TFA和PSM相比，CSIG提高了0.21,CBAK提高了0.12,COVL提高了0.18。與MHANet相比，採用PSM的ResTCN+TFA使CSIG提高0.12,CBAK提高0.08,COVL提高0.11。

5 結論

　　在本研究中，我們提出了一種輕量級和靈活的注意單元，稱為TFA模塊，旨在模擬T-F表示中語音的能量分佈。在兩個訓練目標(IRM和PSM)上以ResTCN為骨幹的大量實驗證明了所提出的TFA模塊的有效性。在所有的模型中，我們提出的ResTCN+TFA始終表現最佳，並在所有情況下顯著優於其他基線。未來的研究工作包括調查TFA在更多架構(例如最近的Transformer)和更多培訓目標上的有效性。

參考文獻

[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013.

[2] Q. Zhang, M. Wang, Y. Lu, L. Zhang, and M. Idrees, A novel fast nonstationary noise tracking approach based on mmse spectral power estimator, Digital Signal Processing, vol. 88, pp. 41 52, 2019.

[3] Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoust. , Speech, Signal Process. , vol. ASSP-32, no. 6, pp. 1109 1121, Dec. 1984.

[4] Q. Zhang, M. Wang, Y. Lu, M. Idrees, and L. Zhang, Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging, IEEE Access, vol. 7, pp. 80 985 80 999, 2019.

[5] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, Proc. INTERSPEECH, pp. 3642 3646, 2017.

[6] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 8, pp. 1256 1266, 2019.

[7] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 22, no. 12, pp. 1849 1858, 2014.

[8] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. ICASSP, 2015, pp. 708 712.

[9] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 3, pp. 483 492, 2015.

[10] J. Chen and D. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.

[11] S. Bai, J. Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.

[12] Q. Zhang, A. Nicolson, M. Wang, K. K. Paliwal, and C. Wang, DeepMMSE: A deep learning approach to mmse-based noise power spectral density estimation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1404 1415, 2020.

[13] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 1, pp. 189 198, 2018.

[14] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. ICASSP, 2019, pp. 6875 6879.

[15] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention is all you need, in Proc. NIPS, 2017, pp. 5998 6008.

[16] J. Hu, L. Shen, and G. Sun, Squeeze-and-excitation networks, in Proc. CVPR, 2018, pp. 7132 7141.

[17] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, CBAM: Convolutional block attention module, in Proc. ECCV, 2018, pp. 3 19.

[18] V. A. Trinh, B. McFee, and M. I. Mandel, Bubble cooperative networks for identifying important speech cues, Interspeech 2018, 2018.

[19] Q. Zhang, Q. Song, A. Nicolson, T. Lan, and H. Li, Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement, in Proc. Interspeech 2021, 2021, pp. 166 170.

[20] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in Proc. ICASSP, 2015, pp. 5206 5210.

[21] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms, in Proc. INTERSPEECH, 2010.

[22] G. Hu, 100 nonspeech environmental sounds, The Ohio State University, Department of Computer Science and Engineering, 2004.

[23] F. Saki, A. Sehgal, I. Panahi, and N. Kehtarnavaz, Smartphone-based real-time classification of noise signals using subband features and random forest classifier, in Proc. ICASSP, 2016, pp. 2204 2208.

[24] F. Saki and N. Kehtarnavaz, Automatic switching between noise classification and speech enhancement for hearing aid devices, in Proc. EMBC, 2016, pp. 736 739.

[25] H. J. Steeneken and F. W. Geurtsen, Description of the rsg-10 noise database, report IZF, vol. 3, p. 1988, 1988. [26] J. Salamon, C. Jacoby, and J. P. Bello, A dataset and taxonomy for urban sound research, in Proc. ACM-MM, 2014, pp. 1041 1044.

[27] D. Snyder, G. Chen, and D. Povey, MUSAN: A music, speech, and noise corpus, arXiv preprint arXiv:1510.08484, 2015.

[28] Y. Zhao, D. Wang, B. Xu, and T. Zhang, Monaural speech dereverberation using temporal convolutional networks with self attention, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1598 1607, 2020.

[29] A. Nicolson and K. K. Paliwal, Masked multi-head selfattention for causal speech enhancement, Speech Communication, vol. 125, pp. 80 96, 2020.

[30] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [31] L. Liu, X. Liu, J. Gao, W. Chen, and J. Han, Understanding the difficulty of training transformers, in Proc. EMNLP, 2020, pp. 5747 5763.

[32] R. I.-T. P. ITU, 862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunication standardization sector, 2007.

[33] J. Jensen and C. H. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 11, pp. 2009 2022, 2016.

[34] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Trans. Audio, Speech, Lang. process. , vol. 16, no. 1, pp. 229 238, 2007.

Tags: 語音增強(SE)

論文翻譯：2022_Time-Frequency Attention for Monaural Speech Enhancement

摘要

1 引用

2 問題公式化

3 TF-Attention的語音增強

3.1 網絡結構

3.2 TF注意力模塊

4 實驗

4.1 數據集和特徵提取

4.2 實驗步驟

4.3 訓練和驗證誤差

4.4 結果和討論

5 結論

參考文獻

VirMach 便宜 VPS

QNews

論文翻譯：2022_Time-Frequency Attention for Monaural Speech Enhancement

摘要

1 引用

2 問題公式化

3 TF-Attention的語音增強

3.1 網絡結構

3.2 TF注意力模塊

4 實驗

4.1 數據集和特徵提取

4.2 實驗步驟

4.3 訓練和驗證誤差

4.4 結果和討論

5 結論

參考文獻

分享此文：

Related Posts

引擎之旅 Chapter.2 線程庫

zookeeper從小白到精通

蘋果開發「AI 建築師」GAUDI：根據文本生成超逼真 3D 場景！

后座兒童掉落車外 私家車壓實線擋車流救援 官方：不予處罰

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋

后座兒童掉落車外私家車壓實線擋車流救援官方：不予處罰